免费下载

八爪鱼采集器 - 最好用的网页数据采集器,超过40万用户首选网页采集软件

  1. 软件版本:V6.4.3
  2. 支持系统:32/64位 XP / Vista / Win7 / Win8 / Win8.1 / Win10
  3. 更新日期:03月22日 (新版功能)
免费下载
微信订阅号:八爪鱼采集器Live
扫一扫,关注我们
教程 | 功能点 | 实战案例
官方论坛解答
点击提问
免费版QQ群
1群:470619317 点击加入
2群:148686415 点击加入
专业版QQ群
3群:135071723 限专业版用户
2群:385161018 限专业版用户
1群:475423041 限专业版用户
旗舰版QQ群
3群:196097783 限旗舰版用户
2群:286777906 限旗舰版用户
1群:130849246 限旗舰版用户
站长采集交流群QQ群
2群:304456535 点击加入
1群:492396817点击加入
down

“再显示20条”等按钮解决方法【5.1版本录制】

标签: 特殊翻页,进阶教程,xpath,高阶 2015/10/27 11:42:04

有些网页我们在采集时可能有加载更多或者再显示20条等按钮,需要点击这些按钮之后需要的数据才会完全显示出来,对于这种类型的网页,我们该如何解决并完整的采集出数据呢

本文的入口地址为:http://junyueshanyc.fang.com/dianping/

打开这个网页之后可以看到页面有再显示20条这个按钮,前面给大家讲过手动创建翻页循环的方法,其实这个网页也是一样的方法,我们把再显示20条这个按钮也手动做一个循环点击。

图片1

 

选择浏览器中的再显示20条这个按钮,然后在弹出的对话框中选择点击这个元素。

图片2

 

以上操作之后系统会自动添加一个点击步骤到流程中。

图片3

点击自定义,进入自定义定位方式界面,将下一页的Xpath复制出来,然后把创建的点击步骤删除,因为我们让系统自动创建点击步骤只是为了得到下一页的Xpath,如果是懂Xpath的朋友可以省掉这个步骤。

图片4

 

接下来我们要创建循环点击,先拖一个循环步骤到流程中,打开高级选项,勾选点击单个元素,然后将之前复制的下一页人Xpath填到单个元素输入框中,点击保存之后可以看到循环列表是再点击20条这个内容

图片5

 

然后拖入一个点击步骤到,打开高级选项,勾选上点击当前循环中设置的元素,点击保存。注意这个点击元素涉及到了ajax,前面教程里面给大家讲到了ajax的特征,也直接通过八爪鱼浏览器下面的这个圈转没转可以判断这个网页需不需要设置ajax

图片6

 

循环点击就建好了。接下来创建循环采集列表,这里注意有些人创建之后可能会像前面网页一样创建完之后,流程如下图所示:

图片7

这个流程大家可以单机采集测试一下,可以看到原本只有135条评论,但是采集出来重复了420条。

图片8

 

注意这个流程其实就是错误的,这是为什么呢?大家可以手动点击测试一下,第一次我们显示的是20条评论,然后进行提取20条,然后再在流程里面点击元素,可以看到这时候循环列表为40个,这之后再提取数据的话,就会提取刚刚已经提取过的那20条数据,如此循环下去,数据会一直重复。

对于这种类型的网页,我们做的流程应该如下图所示:即先把再显示20条全部点完,让所有评论加载完之后再循环提取评论

图片9

 

做好之后我们再试着采集看看,可以看到这时候的数据就是正常采集下来无重复的了

图片10

 



分享到: 更多
人工服务

立即下载,体验更高效简单的数据收集吧! 免费下载

粤公网安备 44030502000701号