通过前几课的学习,我们已经学会了 采集列表数据采集表格数据。如果一个页面上很多同类链接,需要依次点击每个链接进入详情页,然后采集每个详情页中的数据呢?

 

以百度百家号为例。现在有一个百家号资讯列表的网页:https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86&medium=2

可以看到,网页上有很多资讯链接,点击每个资讯链接进入详情页,每个详情页都有资讯标题、百家号头像、百家号、发布时间、正文等字段。

 

 

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

 

如果我们需要按照网页上资讯链接的顺序,自动依次点击链接进入详情页,然后采集详情页中的字段,并保存为Excel等结构化的数据,怎么操作?以下为具体步骤。

 

 

示例网址:https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86&medium=2

 

步骤一、创建一个【新任务】,输入网址

 

在首页【输入框】中输入目标网址,点击【开始采集】。点击【保存设置】,八爪鱼中内置的浏览器会自动打开网页。

 

 

步骤二、建立【循环-点击元素-提取数据】

 

观察网页,此网页上是通过点击资讯标题,进入详情页的。在八爪鱼中,通过建立【循环-点击元素-提取数据】的步骤,可实现识别页面上所有标题链接,并按顺序依次点击以进入详情页,然后再提取每个相亲页中的数据。

建立【循环-点击元素-提取数据】需特定步骤,下面为具体步骤。

 

先看一个包含所有具体步骤的动图:

 

 

再拆分每个步骤,进行详情说明:

 

1、选中页面上第1个链接。选中后的第一个标题链接会被绿色框框起来。同时出现黄色操作提示框,提示我们发现了同类链接(同类链接会被红色虚线框框起来)

 

 

特别说明:

a. 选中1个链接即可,第几个无所谓,第1个,第2个,第3个,都行。

b. 选中的需是可进入详情页的链接。一般的网页,链接会放在标题里,但是也有例外。

 

2、在黄色操作提示框中,选择【选中全部】。我们是想要按顺序点击每个链接的,所以选择【选中全部】。可以看到,全部标题链接都被选中了,被绿色框框起来。

 

 

 

3、在黄色操作提示框中,选择【循环点击每个链接】。选择以后,发现页面跳转到了第1个链接的详情页。

 

 

特别说明:

a. 有时候操作提示框中出现的不是【循环点击每个链接】,而是【循环点击每个元素】,本质是一样的。

 

 

4、提取数据。按照 第3课:采集单个数据 的学习,将页面中的标题、百家号头像、百家号、发布时间、正文字段提取下来。下图示例是提取标题。

 

 

特别说明:

a. 步骤1-4是连续指令,连续不中断,才能建立【循环列表】。如果 1、选中页面上第1个链接 后,没有出现 2、【选中全部】怎么办?请下拉至文末查看解决方法。

 

经过以上4步,循环列表创建完成。打开【流程】 按钮,可以看到,流程图中自动生成了1个循环步骤。循环中的项,对应着页面上所有标题链接。启动采集以后,八爪鱼就会按照循环中的顺序,依次点击每个链接进入详情页,再提取每个详情页中的字段。

 

 

步骤三、编辑字段

 

我们可以对字段进行删除、修改字段名称等操作。

1、删除不需要的字段。选中字段,再点击垃圾桶图标将其删除。

2、修改字段名称。字段名称相当于excel表头,可选择默认字段名,也可自定义输入。

 

 

步骤四、启动采集

 

1、修改完字段名后,整个规则编辑完成,点击【开始采集】,再点击【启动本地采集】启动后八爪鱼开始全自动采集数据。(本地采集是使用自己的电脑进行采集,云采集是使用八爪鱼提供的云服务器采集,具体请查看课程x)

 

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。

 

 

数据示例:

 

 

 

步骤二、建立【循环-点击元素-提取数据】步骤时,1、选中页面上第1个链接 后,没有出现 2、【选中全部】的解决办法:

 

示例网址:http://www.haerbin.ccoo.cn/post/cheliang

 

先看一个建立【循环列表】的完整步骤:

 

 

再拆分每个步骤,详细说明:

 

1、选中页面上第1个链接

2、继续选中页面上的1个链接(目的是帮助八爪鱼识别页面中的所有同类链接,作用相当于【选中全部】)。

 

 

3、在黄色操作提示框中,选择【循环点击每个链接】。八爪鱼自动跳转到详情页。

4、在详情页中按需提取字段

 

通过上面的4步,【循环-点击元素-提取数据】也能够创建完成。接下来的步骤与上面相同,不再赘述。

 

作者:Bin
编辑:Aisling