八爪鱼,最好的网络爬虫工具

八爪鱼采集器如何采集分页数据

作者:keven 发布时间:2014/2/13 23:23:30 526 人已阅读

摘要:很多第一次使用八爪鱼采集器的朋友在问,如何使用八爪鱼采集器采集分页数据,其实这个很简单。下面就给大家详细讲解一下。

很多第一次使用八爪鱼采集器的朋友在问,如何使用八爪鱼采集器采集分页数据,其实这个很简单。下面就给大家详细讲解一下。

最常见的情况是,网页上有类似“下一页”之类的按钮或者链接,可以直接点击翻页,这种在配置采集规则的时候,直接点击下一页按钮,系统会自动识别下一页,用户只要在弹出来的对话框中选择“循环点击下一页”选项,系统就会自动生成对应的采集规则。所以大部分情况下只需要点一下鼠标,系统就会自动配置好规则。这种一般大家都没有问题,所以简单略过。

比较特殊的情况下,网页没有“下一页”,可能有个图片,或者一个箭头,或者其他的文字之类的,系统并不能自动识别为下一页,这样弹出的选项中就没有“循环点击下一页”,这种首先是肯定可以采集的。其次配置起来也不难,但是比上面的还是要复杂一点点,不过要是有点耐心,按照下面的步骤做,肯定是可以搞定的。

可以通过以下方式来手动建立下一页循环:

1.获取下一页的XPath,有以下方式:
使用firefox浏览器插件firepath或者chrome浏览器,都可以直接在网页中复制元素的xpath
建立一个测试任务,打开包含下一页的页面,直接点击提取下一页的文字,选中提取的字段,点自定义按钮,选第二项,里面有一个“//”开头的一串字符,就是XPath。

2.回到你的任务,当你导航至列表页需要创建翻页循环的时候,不用点击下一页,直接拖一个循环动作到流程中,打开高级选项,选中循环固定元素,并在右边输入获取的XPath,点保存。

3.拖动一个点击动作到循环内部,打开高级选项,选中“使用当前循环项”,点保存。

通过以上步骤即可实现手动创建翻页循环。

如果还搞不定的朋友,请直接加qq群61570666,到群里求助,后面视频教程也会增加相应的视频。


分享到: 更多