免费下载

八爪鱼采集器 - 最好用的网页数据采集器,超过40万用户首选网页采集软件

  1. 软件版本:V6.4.3
  2. 支持系统:32/64位 XP / Vista / Win7 / Win8 / Win8.1 / Win10
  3. 更新日期:03月22日 (新版功能)
免费下载
官方论坛解答
点击提问
专业版QQ群
3群:135071723 限专业版用户
2群:385161018 限专业版用户
1群:475423041 限专业版用户
旗舰版QQ群
3群:196097783 限旗舰版用户
2群:286777906 限旗舰版用户
1群:130849246 限旗舰版用户
站长采集交流群QQ群
2群:304456535 点击加入
1群:492396817点击加入
down

列表项及详情页信息字段提取教程

标签: 实战教程,实战案例 2015/6/15 19:19:42

有些类型的网页我们需要在列表中采集数据字段,也需要在详情中采集数据字段。对于这样的情况我们可以用以下方法来解决。

文章讲述的任务的入口地址为http://data.eastmoney.com/stockcomment/

我们需要采集每一行的股票代码,也需要采集点评详情里面的相关内容

 

图片1

 首先我们打开八爪鱼,新建一个任务,添加一个打开网页的步骤到流程设计器中,填写页面URL,点击保存,打开对应的网页。

 图片2

这个是表格形式存在的,所以每行创建一个列表循环

图片1

添加第二行的时候系统会默认识别该页面下所有行的内容,然后选择创建列表完成。图片2

注意循环的时候,需要设置xpath确定位置。这个用以指明后续提取的点评详情页面在同一行。xpath为//HTML/BODY[1]/DIV[7]/DIV[1]/DIV[1]/DIV[2]/TABLE[1]/TBODY[1]/TR[position()>=1]

图片3

 

创建列表完成之后,如下图所示选择提取数据

图片4

添加列表页面下需要提取的数据

图片5

然后设置点评详情图片7

 

注意设置点击元素的同时也需要定位这个点评详情的xpath,注意点评详情的xpath是相对于循环的,上面循环列表的xpath是//HTML/BODY[1]/DIV[7]/DIV[1]/DIV[1]/DIV[2]/TABLE[1]/TBODY[1]/TR[position()>=1]    点评详情的xpath本身为//HTML/BODY[1]/DIV[7]/DIV[1]/DIV[1]/DIV[2]/TABLE[1]/TBODY[1]/TR[position()>=1]/td[4]/a[1],但是这里点评详情的xpath是相对于循环的,所以我们把循环的xpath去掉,只取后面的//td[4]/a[1]  如下图所示:

图片8

 

图片9

 设置完之后需要在点击元素的高级设置里面勾上点击当前循环中设置的元素

113

最后再在弹出的页面提取子页面的数据字段即可

 

图片10

最后进行测试,数据则被顺利的提取出来啦!

图片11

 



分享到: 更多
立即下载,体验更高效简单的数据收集吧! 免费下载