淘宝网结构复杂,页面丰富,数据量大。在进行淘宝数据采集时,有不同的维度。本文总结了淘宝数据采集常见的场景,并详细讲解采集过程。

大家可以根据需求,选择合适的场景,按照步骤进行操作。

 

一、淘宝商品列表页采集

 

采集内容:在淘宝首页,输入商品关键词搜索,采集搜索后得到的商品列表数据。

采集字段:店铺名称、地理位置、产品名称、产品价格、付款人数、商品链接、当前时间。

示例网址:https://s.taobao.com/search?q=%E8%BF%9E%E8%A1%A3%E8%A3%99&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

 

 

采集方法一:智能识别

 

Step1:输入网址,八爪鱼自动打开网页。可以看到,淘宝是需要登录,才能访问所需数据的。学到的方法,使用浏览器模式+Cookie登录

 

在浏览器模式下,输入自己的淘宝账号密码登录。也可扫码登录,本示例使用扫码登录。

 

 

登录完成以后,记住Cookie:

 

 

Step2:开始使用智能识别,可以看到,八爪鱼自动识别出了网页上的数据和翻页:

 

 

Step3:启动采集 ,看一下采集结果:

 

 

采集完成以后,以需要的格式导出即可:

 

 

采集方法二:使用采集模板【淘宝网-商品列表页采集】

 

Step1:找到淘宝网-商品列表页采集】这个模板

 

 

Step2:按照说明,输入采集参数,这个模板的参数有4个:商品名称(可以同时输入多个,一行一个即可)、淘宝账号、淘宝密码、翻页次数。

 

 

Step3:参数设置完成后,点击【保存并启动】,启动采集即可获取到所需数据,不再赘述。

 

二、淘宝商品详情页采集

 

采集内容:进入商品详情页,采集每个商品详情页中的数据。

采集字段:商品标题、商品副标题、商品ID、商品链接、商品图片、商品属性、价格、月销量、评论数、收藏数、店铺名称、卖家昵称、发货地址等。

示例网址:

https://detail.tmall.com/item.htm?id=610939969190&ali_refid=a3_430583_1006:1110937866:N:o2sTaGwsXupBKM4E/JMA8w==:de73c5124091e46a55b45c89ddb72ffb&ali_trackid=1_de73c5124091e46a55b45c89ddb72ffb&spm=a230r.1.14.3

https://detail.tmall.com/item.htm?spm=a230r.1.14.9.32b42140tK4bsv&id=612151790166&cm_id=140105335569ed55e27b&abbucket=15

 

 

Step1:找到【淘宝-商品详情采集(商品详情可提取为多字段)-限云采】采集模板

 

 

Step2:按照模板说明,填入参数。这里有1个必填参数:商品ID。1个选填参数:额外参数。

商品ID:为商品详情页链接后面的那串数字,如https://item.taobao.com/item.htm?id=15673817371或 https://item.taobao.com/item.htm?spm=a21bo.7929913.198967.13.653c4174zq3bmA&id=15673817371

额外参数:每个商品。都有【商品详情】,一般是作为一个字段提取的。可输入商品额外参数,获取商品属性中具体的某个属性,一个属性一个字段。比如某服装商品,想要提取品牌、尺码、面料,就在额外参数填“品牌,尺码,面料” (每个属性用英文逗号分隔开)

 

 

Step3:参数设置完成后,点击【保存并启动】,启动采集即可获取到所需数据,不再赘述。

 

三、淘宝评论采集

 

采集内容:采集淘宝商品详情页的商品评论信息

采集字段:商品ID、评论ID、用户昵称、颜色分类、评论内容、评论时间、追评内容、追评时间、追评天数等。

示例网址:https://detail.tmall.com/item.htm?spm=a230r.1.14.9.32b42140tK4bsv&id=612151790166&cm_id=140105335569ed55e27b&abbucket=15

 

 

Step1:一样的,按照上述方法,找到【淘宝-商品评论-限云采集】这个采集模板,点击【立即使用】

 

 

Step2:按照模板说明,输入参数。

这里有1个必填参数:商品ID。1个选填参数:翻页次数。

商品ID:为商品详情页链接后面的那串数字,如https://item.taobao.com/item.htm?id=15673817371或 https://item.taobao.com/item.htm?spm=a21bo.7929913.198967.13.653c4174zq3bmA&id=15673817371

翻页次数:很好理解,需要多少页数据,就输入多少页。

 

 

Step3:参数设置完成后,点击【保存并启动】,启动采集即可获取到所需数据,不再赘述。

 

四、淘宝店铺全部商品采集

 

采集内容:采集某个淘宝店铺里的全部商品列表数据

采集字段:商品ID、商品名称、商品链接、商品图片、卖家、价格、已售、库存、快递费等。

示例网址:https://shop105514755.taobao.com/category.htm?spm=a1z10.1-c-s.w16607244-22409877424.1.261a29c5DGuOM4

 

 

Step1:一样的,按照上述方法,找到【淘宝-店铺全部商品-仅限淘宝店铺-不支持天猫店铺】这个采集模板,点击【立即使用】

 

 

Step2:按照模板说明,输入参数。

这里有1个必填参数:店铺链接、cookie。1个选填参数:最大翻页次数。

店铺链接和cookie这2个参数的获取过程,以下教程已详细说明,请点击查看:https://www.bazhuayu.com/tutorial/jymbtbdp

 

 

Step3:参数设置完成后,点击【保存并启动】,启动采集即可获取到所需数据,不再赘述。