请输入
菜单

06 翻页以采集多页数据

通过前几课的学习,我们已经学会了采集一页数据:列表表格点击链接进入详情的数据

在实际使用过程中,经常是需要翻页来采集更多的数据。对于需要翻页的网站,我们该如何操作呢?

本课将讲解常见的网页翻页类型,以及用八爪鱼实现翻页的方法。

 

一、点击页面上的“翻页按钮”进行翻页

页面上用来“翻页”的按钮,可能是<下一页>,<后页>。以下边的网址为例https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4

 

在八爪鱼中该如何实现翻页?以下为具体操作步骤。

 

步骤一、先创建1个任务

 

经过前几课的学习,我们已经学会了如何采集单个页面上的列表、表格、点击链接进入详情的数据。根据需求,先配置好1个采集1页数据的任务。

在这里,我以 采集列表数据 为例。先建立一个【循环-提取数据】步骤。

 

 

现在,第1页上的列表数据就全被采集下来了。接下来,我们想让八爪鱼自动翻页,去采第2页、第3页.....直到最后1页的数据。这就需要建立一个【翻页循环】。

 

步骤二、建立【翻页循环】

 

找到并点击页面中的翻页按钮,在自动弹出的【黄色操作提示框】中点击【循环点击】。这样,用翻页按钮创建【循环翻页】的步骤就完成了。可以看到流程图中出现一个【循环翻页】的步骤,这就表明我们已经成功创建好了【循环翻页】,八爪鱼就能自动完成翻页了。

 

为什么要【循环点击】?它的意思就是,让八爪鱼不断的多次点击 【下一页】进行翻页,以实现采集第2页,第3页......直到最后一页数据。这跟我们在浏览器中,不断点击【下一页】按钮翻页,逻辑是相同的。

 

 

 

特别说明:

a. 如果出现的不是【循环点击】,而是【循环点击下一页】【循环点击单个XXX】怎么办?【循环点击】的本质是,循环点击页面上用来翻页的按钮。不同网页上用来点击翻页的按钮,展示方式可能不同。常见的有:【下一页】【>】【后页>】,对应的八爪鱼操作提示框中出现的可能是【循环点击】【循环点击下一页】【循环点击单个链接】【循环点击单个元素】【循环点击单个图片】,本质上都是一样的,都用于创建循环翻页。

 

步骤三、启动采集

 

1、点击【保存】,点击【采集】,选择【启动本地采集】,启动后八爪鱼开始全自动采集数据。(本地采集是使用自己的电脑进行采集,云采集是使用八爪鱼提供的云服务器采集,点击查看详细说明

 

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。

 

 

示例数据:

 

 

关于【循环翻页】的几个技巧分享

 

1、可以先建【循环翻页】,也可先建【循环-提取数据】。

 

八爪鱼会自动判断并调整步骤在流程中的位置。对于点击【下一页】翻页,标准流程如下图所示,它的执行逻辑是:【打开网页】→【采集第1页列表数据】→【翻到第2页】→【采集第2页列表数据】......【翻到最后1页】→【采集最后1页列表数据】→【所有页数据采完,自动结束采集任务】。逻辑执行详情请查看 第8课:采集原理与流程执行逻辑

 

2、可通过【限制翻页次数】,控制翻页的次数。

如果只需要采集前3页数据,则设置翻页次数为【3】。

 

其他特殊的翻页

 

除了点击【下一页】 进行翻页外,还有其他特殊的翻页方式。

 

1、点击【加载更多】、【再显示20条】等按钮进行翻页。

常见的网页有:搜狗微信首页、微博评论。

此类翻页解决方法请查看教程 点击【加载更多】或【再显示20条】等按钮翻页

 

 

 

2、无翻页按钮,需不断向下滚动页面,加载出新数据。

常见的网页有:百度图片搜索、今日头条首页。

此类翻页解决方法请查看教程 滚动加载数据采集方法

 

 

3、无翻页按钮,只有一排数字,需点击数字进行翻页。

此类翻页解决方法请查看教程 无【下一页】按钮,点击数字进行翻页

 

 

 

 

 

 

作者:Mia

最近修改: 2024-01-15