采集场景

在淘宝首页(https://s.taobao.com/)输入关键词搜索,采集搜索后得到的商品列表页数据。示例中关键词为【耐克】,可根据需求进行更换,同时支持自动批量输入多个关键词。

 

采集字段

采集字段包括产品名称,店铺名称,产品价格,付款金额,商品链接,店铺链接等。

 

 

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

 

采集结果

采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:

 

 

教程说明

本篇制作时间:2020/4/24    八爪鱼版本:V8.1.8

如果因网页改版造成网址或步骤无效,无法采集到目标数据,请联系官方客服,我们将及时修正。

 

采集步骤

步骤一、打开网页

步骤二、登录淘宝

步骤三、输入多个关键词并搜索

步骤四、创建【循环列表】,采集所有商品列表中的数据

步骤五、创建【循环翻页】,采集多页数据

步骤六、编辑字段

步骤七、启动采集

 

以下为具体步骤:

 

步骤一、打开网页

 

在首页【输入框】中输入目标网址 https://www.taobao.com/ ,点击【开始采集】,八爪鱼自动打开网页。

 

 

特别说明:

a. 打开网页后,如果开始开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程

 

步骤二、使用账号密码登录淘宝

 

采集淘宝数据,基本上都是需要先登录的,如果没有先登录,很容易被淘宝判断为自动程序,无法搜索关键词与采集搜索后的商品列表数据。因此,我们需要先在八爪鱼中登录,通过以下几步实现:

1、进入淘宝登录页

2、输入账号,密码并点击登录

 

1、进入淘宝登录页

点击  按钮,将流程图隐藏起来,以展现出登录的区块。

选中【登录】按钮,在操作提示框中点击【点击该链接】,进入登录页。

 

 

2、输入账号,密码并点击登录

选中用户名输入框,在操作提示框中点击【输入文本】,输入账号。

选中密码输入框,在操作提示框中点击【输入文本】,输入密码。

选中【登录】按钮,在操作提示框中,点击【单击该按钮】。

等待一会后,成功登陆淘宝。

 

 

特别说明:

a. 一般情况下,淘宝网输入账号密码即可登录。如果登录时出现验证码,八爪鱼也可解决,点击查看  处理需要登录的网页(含登录时有验证码

b. 如果账号密码输错,  进入【输入文本】设置页面,更改成正确的即可。更改后再执行一次【点击元素】,即可完成登录。

 

步骤三,输入多个关键词并搜索

 

登录成功以后,通过以下几步,实现批量输入多个关键词。

1、创建【输入文本】,以输入关键词

2、创建【文本列表循环】,存储多个关键词

3、将【输入文本】与【文本列表循环】联动起来

4 、点击搜索

 

1、创建【输入文本】,以输入关键词

选中淘宝搜索框,在操作提示框中点击【输入文本】,输入关键词并保存。

 

 

2、创建【文本列表循环】,存储多个关键词

 

① 在【输入文本2】步骤后,添加一个【循环】。

 

 

② 进入【循环】设置页面。选择循环方式为【文本列表】,点击   按钮,将我们准备好的关键字输进去(可同时输入多个关键字,一行一个即可)后保存。

 

 

特别说明:

a. 示例中输入的关键词是【耐克】和【阿迪】,可根据自身需求进行替换。

b. 一次最多输入2W个关键字。可先准备一个包含多个关键字的文档,然后将其复制粘贴进八爪鱼中。

 

3、将【输入文本】与【文本列表循环】联动起来

将【输入文本】步骤拖入【循环】中。

然后进入【输入文本】设置页面,勾选【使用当前循环里的文本来填充输入框】后保存。

 

 

特别说明:

a. 如何验证【输入文本】与【文本列表循环】已联动?切换循环选项中的关键字,然后单击【输入文本】,可以看到输入框中的关键词随着循环项切换而变动,说明【输入文本】已与【文本列表循环】联动,可实现自动批量输入多个关键词。

 

4、点击搜索

选中【搜索】按钮,在操作提示框中点击【点击该按钮】,出现关键词的搜索结果列表页。

 

 

生成的【点击元素2】步骤,对应着点击【搜索】按钮。操作发现有问题,在输入第2个关键词后,无法实现【搜索】操作,需修改其定位XPath。

进入【点击元素2】设置页面,修改XPath为://button[@class="btn-search tb-bg"] | //form[@id="J_SearchForm"]/button[@class="submit icon-btn-search"]  。

 

 

特别说明:

a. 为什么要修改【点击元素2】按钮的XPath?这是因为,登录以后打开的是淘宝首页,在首页输入第1个关键词并搜索后得到商品列表页。第1个关键词的数据采集完后,第2个关键词是在直接列表页输入的。首页和列表页的【搜索】按钮源码不一样,默认生成的XPath只能定位到首页的【搜索】按钮,定位不到列表页的【搜索】按钮。我们需要找到一条通用XPath,既能定位到首页的【搜索】按钮,也能定位到列表页的【搜索】按钮。写出通用的XPath,需要一定的XPath知识。点击查看 XPath学习与实例教程 。

 

b. 选中淘宝搜索框,在操作提示框中选择【采集该文本框的值】。这样就能知道数据是由哪个关键词搜索得到的。

 

步骤四、创建【循环列表】,采集所有商品列表中的数据

 

通过以下连续4步,采集所有商品列表中的数据:

1、选中页面上1个商品列表(注意一定要选中整个列表,包含所有所需字段) 

2、在黄色操作提示框中,点击【选中子元素】

3、点击【选择全部】

4、点击【采集数据】

 

 

特别说明:

a. 经过以上连续4步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有商品列表,【提取数据】中的字段,对应着每个商品列表中的字段。启动采集以后,八爪鱼就会按照循环中的顺序依次提取每个列表中的字段。 

b. 为何通过以上4步,可建立【循环-提取数据】?详情点击查看 列表数据采集教程 

 

步骤五、创建【循环翻页】,以采集多页数据

 

如果只是采集一页数据,可跳过此步骤。

如果需要翻页以采集多页数据:选择页面中的【下一页】按钮,在操作提示上单击【循环点击下一页】,创建【循环翻页】。

 

 

特别说明:

a. 创建【循环翻页】后,八爪鱼会自动点击【下一页】按钮进行翻页,从第1页,第2页......直到最后1页。如果只需采集特定页的数据,可在八爪鱼中设置循环翻页的次数,详情点击查看  翻页以采集多页数据教程

b. 在选中【下一页】范围时,选中的范围不同,弹出的提示也不同。如果选中的是最里层的文字【下一页】,黄色操作提示框中弹出的提示是【循环点击下一页】。如果选中的是最整个【下一页】按钮,黄色操作提示框中弹出的提示是【循环点击单个链接】。两者的作用相同,都是为了实现翻页。

 

步骤六,编辑字段

 

进入【提取数据】设置页面,可删除多余字段,修改字段名,移动字段顺序等。

 

 

步骤七、启动采集

 

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

 

 

特别说明:

a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。

 

 

数据示例:

 

 

作者:DJacky

编辑:Aisling