有很多网站,通过点击【加载更多】或【再显示20条】等按钮进行翻页。像 搜狗微信首页微博评论 等页面都是这种情况。

针对这种网页,八爪鱼V8.2.0版本新增【边点击边采集】功能,可以边点击【加载更多按钮】,加载出新数据,边采集每次加载的新数据。

例:设置点击5次,则点击1次后,采集第1次点击后加载的数据,继续点击第2次,采集第2次点击后加载的数据.......直至点击20次,采集第20次点击后加载的数据。

 

使用智能识别和自行配置的采集规则,都能实现【边点击边采集】,具体设置方法如下。

 

一、使用智能识别实现【边点击边采集】

 

示例网址:https://weixin.sogou.com

 

Step1:在首页输入框中,输入目标网址,点击【开始采集】,八爪鱼自动打开网页。

打开网页后,选择【智能识别网页】,并给它一点时间,等待智能识别完成。

智能识别结束后,可以看到它自动识别了页面的【滚动】、【加载更多按钮】和【列表数据】。

 

 

Step2:点击【生成采集设置】,可自动生成相应的采集流程,方便用户编辑修改。

 

 

Step3:点击左上角的【采集】,选择【启动本地采集】,八爪鱼就会开始全自动采集数据。

注意观察页面:八爪鱼点击1次后,采集第1次点击后加载的数据,继续点击第2次,采集第2次点击后加载的数据......直至数据全部采集完成。

 

 

 

二、自行配置采集任务实现【边点击边采集】

 

如果不使用智能识别,如何自行配置采集任务,实现【点击边采集】呢?以下详细详解。

示例网址:https://weixin.sogou.com

 

Step1:在首页输入框中,输入目标网址,点击【开始采集】,八爪鱼自动打开网页。关掉智能识别,我们自行配置采集任务。

 

 

Step2:按照需求配置提取数据,示例中我们提取列表数据,提取方法见 采集列表数据 教程。

 

 

Step3:提取列表数据,会自动在流程中生成一个【循环列表】步骤,自动生成的【循环列表】无法包括所有的100个文章列表,我们需要修改一下XPath。

进入【循环列表】设置页面,修改XPath为:.//*[@id='pc_0_d']//li

 

 

Step4:找到并选中【加载更多内容】按钮,在弹出的操作提示框中选择【循环点击单个元素】,自动生成一个【循环翻页】步骤。

【循环翻页】步骤中内嵌着【循环列表】步骤,这样我们就能实现边点击边采集数据。

再注意观察页面,此页面执行5次点击就到底了,加载出全部100条数据,因此我们设置翻页次数为5次。

 

 

Step4:点击左上角的【采集】,选择【启动本地采集】,八爪鱼就会开始全自动采集数据。

注意观察页面:八爪鱼点击1次后,采集第1次点击后加载的数据,继续点击第2次,采集第2次点击后加载的数据......直至数据全部采集完成。