电商
社交媒体
新闻资讯
生活服务
金融
房产
【淘宝】采集场景汇总
2020-03-16
19262
淘宝网结构复杂,页面丰富,数据量大。在进行淘宝数据采集时,有不同的维度。本文总结了淘宝数据采集常见的场景,并详细讲解采集过程。
大家可以根据需求,选择合适的场景,按照步骤进行操作。
一、淘宝商品列表页采集
采集内容:在淘宝首页,输入商品关键词搜索,采集搜索后得到的商品列表数据。
采集字段:店铺名称、地理位置、产品名称、产品价格、付款人数、商品链接、当前时间。
采集方法一:智能识别
Step1:输入网址,八爪鱼自动打开网页。可以看到,淘宝是需要登录,才能访问所需数据的。学到的方法,使用浏览器模式+Cookie登录
在浏览器模式下,输入自己的淘宝账号密码登录。也可扫码登录,本示例使用扫码登录。
登录完成以后,记住Cookie:
Step2:开始使用智能识别,可以看到,八爪鱼自动识别出了网页上的数据和翻页:
Step3:启动采集 ,看一下采集结果:
采集完成以后,以需要的格式导出即可:
采集方法二:使用采集模板【淘宝网-商品列表页采集】
Step1:找到【淘宝网-商品列表页采集】这个模板
Step2:按照说明,输入采集参数,这个模板的参数有4个:商品名称(可以同时输入多个,一行一个即可)、淘宝账号、淘宝密码、翻页次数。
Step3:参数设置完成后,点击【保存并启动】,启动采集即可获取到所需数据,不再赘述。
二、淘宝商品详情页采集
采集内容:进入商品详情页,采集每个商品详情页中的数据。
采集字段:商品标题、商品副标题、商品ID、商品链接、商品图片、商品属性、价格、月销量、评论数、收藏数、店铺名称、卖家昵称、发货地址等。
示例网址:
Step1:找到【淘宝-商品详情采集(商品详情可提取为多字段)-限云采】采集模板
Step2:按照模板说明,填入参数。这里有1个必填参数:商品ID。1个选填参数:额外参数。
商品ID:为商品详情页链接后面的那串数字,如https://item.taobao.com/item.htm?id=15673817371或 https://item.taobao.com/item.htm?spm=a21bo.7929913.198967.13.653c4174zq3bmA&id=15673817371
额外参数:每个商品。都有【商品详情】,一般是作为一个字段提取的。可输入商品额外参数,获取商品属性中具体的某个属性,一个属性一个字段。比如某服装商品,想要提取品牌、尺码、面料,就在额外参数填“品牌,尺码,面料” (每个属性用英文逗号分隔开)
Step3:参数设置完成后,点击【保存并启动】,启动采集即可获取到所需数据,不再赘述。
三、淘宝评论采集
采集内容:采集淘宝商品详情页的商品评论信息
采集字段:商品ID、评论ID、用户昵称、颜色分类、评论内容、评论时间、追评内容、追评时间、追评天数等。
Step1:一样的,按照上述方法,找到【淘宝-商品评论-限云采集】这个采集模板,点击【立即使用】
Step2:按照模板说明,输入参数。
这里有1个必填参数:商品ID。1个选填参数:翻页次数。
商品ID:为商品详情页链接后面的那串数字,如https://item.taobao.com/item.htm?id=15673817371或 https://item.taobao.com/item.htm?spm=a21bo.7929913.198967.13.653c4174zq3bmA&id=15673817371
翻页次数:很好理解,需要多少页数据,就输入多少页。
Step3:参数设置完成后,点击【保存并启动】,启动采集即可获取到所需数据,不再赘述。
四、淘宝店铺全部商品采集
采集内容:采集某个淘宝店铺里的全部商品列表数据
采集字段:商品ID、商品名称、商品链接、商品图片、卖家、价格、已售、库存、快递费等。
示例网址:https://shop105514755.taobao.com/category.htm?spm=a1z10.1-c-s.w16607244-22409877424.1.261a29c5DGuOM4
Step1:一样的,按照上述方法,找到【淘宝-店铺全部商品-仅限淘宝店铺-不支持天猫店铺】这个采集模板,点击【立即使用】
Step2:按照模板说明,输入参数。
这里有1个必填参数:店铺链接、cookie。1个选填参数:最大翻页次数。
店铺链接和cookie这2个参数的获取过程,以下教程已详细说明,请点击查看:https://www.bazhuayu.com/tutorial/jymbtbdp
Step3:参数设置完成后,点击【保存并启动】,启动采集即可获取到所需数据,不再赘述。