免费下载

八爪鱼采集器 - 最好用的网页数据采集器,超过40万用户首选网页采集软件

  1. 软件版本:V6.4.3
  2. 支持系统:32/64位 XP / Vista / Win7 / Win8 / Win8.1 / Win10
  3. 更新日期:03月22日 (新版功能)
免费下载
微信订阅号:八爪鱼采集器Live
扫一扫,关注我们
教程 | 功能点 | 实战案例
官方论坛解答
点击提问
免费版QQ群
1群:470619317 点击加入
2群:148686415 点击加入
专业版QQ群
3群:135071723 限专业版用户
2群:385161018 限专业版用户
1群:475423041 限专业版用户
旗舰版QQ群
3群:196097783 限旗舰版用户
2群:286777906 限旗舰版用户
1群:130849246 限旗舰版用户
站长采集交流群QQ群
2群:304456535 点击加入
1群:492396817点击加入
down

无下一页,数字翻页解决方法【5.0版本录制】

标签: 特殊翻页,xpath,高阶 2015/10/16 11:00:31

我们可能遇到一些网页,页面上并没有翻页按钮,而是一排页码,我们需要直接点击页码进行翻页。这种方式如何解决呢

首先我们打开一个这样的网页,如:

http://loan.cngold.org/zhishi/list_2927_2.html

打开之后页面如下图显示

图片1

可以在火狐看下这个翻页的源码,如下图所示:

当前页在第一页,源码是span标签开头的,其他页面是a标签开头的。

图片2

 

我们再翻到其他页,看看是不是也是这个特点。可以看到当前页在第7页,第7页的源码显示是span开头的,其他页码变为a标签开头的。

图片3

 

我们可以根据这个特点相应的写xpath,然后手动创建翻页循环。前面在xpath入门教程里面给大家讲到了following-sibling这个参数的意义,即当前元素的兄弟元素,我们可以借助于这个参数结合刚刚看到的这个特点。例如当前页都是span标签开头的,我们可以先定位的span标签,然后寻找当前页的下一页。

借助于火狐浏览器,我们先定位span标签

图片4

 

看上图这个页面里面span标签有很多,我们再看一下原本需要的span标签,可以看到span标签里面的class属性,根据这个属性定位。

图片5

 

如下图,//span[@class=’thisclass’]即能定位到我们需要的当前页

图片6

 

接下来利用following-sibling定位当前页的下一页

//span[@class=’thisclass’]/following-sibling::a可以定位到当前span下面的所有兄弟元素,注意这个following-sibling后面的::是固定格式

图片7

 

由于我们只需要定位到当前页的下一页,所以只需要定位到第一个a标签,即给a一个标号//span[@class='thisclass']/following-sibling::a[1]

图片8

 

可以看到当前页为第7页,现在定位到了它的下一页即第8页。

接下来我们在八爪鱼里面手动创建翻页循环

我们先往流程设计器里面拖入一个循环步骤,再在高级里面选择单个元素,并把写好的xpath路径//span[@class='thisclass']/following-sibling::a[1]复制到单个元素里面去,点击保存之后可以看到循环列表为当前页的下一页即第2

图片9

 

做好之后再往循环里面拖入一个点击元素的步骤,并在高级里面勾选点击当前循环中设置的元素,并保存。

图片10

设置好之后可以在流程设计器中验证我们做的翻页循环是否正确。

图片11

选择点击元素,再看下方浏览器中是否正常进行了翻页

图片12

接下来我们做一个完整的规则,循环采集每页的前3项数据,在本地执行采集流程验证能不能正常采集数据

图片13

 

可以看到能正常采集信息

图片14



分享到: 更多
人工服务

立即下载,体验更高效简单的数据收集吧! 免费下载

粤公网安备 44030502000701号