通过前几课的学习,我们已经学会了采集一页数据:列表表格点击链接进入详情的数据

 

在实际使用过程中,经常是需要翻页来采集更多的数据。对于需要翻页的网站,我们该如何操作呢?

 

本课将讲解常见的网页翻页类型,以及用八爪鱼实现翻页的方法。

 

一、点击 “下一页” 按钮翻页

 

点击页面上的 “下一页” 按钮翻页,是最常见的翻页方式。这个网站就是如此:http://www.ggzy.gov.cn/information/info/news/news.shtml

 

 

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

 

在八爪鱼中该如何实现翻页?以下为具体操作步骤。

 

使用【智能识别】,自动识别网页上的数据和翻页。

 

 

步骤一、先创建1个任务

 

经过前几课的学习,我们已经学会了如何采集单个页面上的列表、表格、点击链接进入详情的数据。根据需求,先配置好1个采集1页数据的任务。

在这里,我以 采集列表数据 为例。先建立一个【循环-提取数据】步骤。

 

 

现在,第1页上的列表数据就全被采集下来了。接下来,我们想让八爪鱼自动翻页,去采第2页、第3页.....直到最后1页的数据。这就需要建立一个【翻页循环】。

 

步骤二、建立【翻页循环】

 

找到并点击页面中的【下一页】按钮,在自动弹出的【黄色操作提示框】中点击【循环点击下一页】这样,用【下一页】按钮创建【循环翻页】的步骤就完成了。可以看到流程图中出现一个【循环翻页】的步骤,这就表明我们已经成功创建好了【循环翻页】,八爪鱼就能自动完成翻页了。

 

 

特别说明:

a. 为什么要【循环点击下一页】?它的意思就是,让八爪鱼不断的多次点击 “下一页” 进行翻页,以实现采集第2页,第3页......直到最后一页数据。

 

b. 如果出现的不是【循环点击下一页】,而是【循环点击单个XXX】怎么办?【循环点击下一页】的本质是,循环点击页面上用来翻页的按钮。不同网页上用来点击翻页的按钮,展示方式可能不同。常见的有:【下一页】【>】【后页>】,对应的八爪鱼操作提示框中出现的可能是【循环点击下一页】【循环点击单个链接】【循环点击单个元素】【循环点击单个图片】,本质上都是一样的,都用于创建循环翻页。

 

 

 

步骤三、启动采集

 

1、点击【保存并启动】,选择【启动本地采集】。启动后八爪鱼开始全自动采集数据。(本地采集是使用自己的电脑进行采集,云采集是使用八爪鱼提供的云服务器采集)

 

 

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。

 

 

 

示例数据:

 

 

 

关于【循环翻页】的几个技巧分享:

 

1、可以先建【循环翻页】,也可先建【循环-提取数据】。

 

八爪鱼会自动判断并调整步骤在流程中的位置。对于点击【下一页】翻页,标准流程如下图所示,它的执行逻辑是:【打开网页】→【采集第1页列表数据】→【翻到第2页】→【采集第2页列表数据】......【翻到最后1页】→【采集最后1页列表数据】→【所有页数据采完,自动结束采集任务】。逻辑执行详情请查看 第9课:采集原理与流程执行逻辑

 

 

2、可通过【限制翻页次数】,控制翻页的次数。

如果只需要采集前3页数据,则设置翻页次数为【3】。

 

 

二、其他特殊的翻页

 

除了点击 “下一页” 进行翻页外,还有其他特殊的翻页方式。

 

1、点击“加载更多”、“再显示20条”等按钮进行翻页。常见的网页有:搜狗微信首页、微博评论。此类翻页解决方法请查看教程 特殊翻页:加载更多/滚动翻页/数字翻页

 

 

 

2、无翻页按钮,需不断向下滚动页面,加载出新数据。常见的网页有:百度图片搜索、今日头条首页。此类翻页解决方法请查看教程 特殊翻页:加载更多/滚动翻页/数字翻页

 

 

3、无翻页按钮,只有一排数字,需点击数字进行翻页。此类翻页解决方法请查看教程 特殊翻页:加载更多/滚动翻页/数字翻页

 

 

 

作者:Tovehy & Candice
编辑:Aisling