免费下载

八爪鱼采集器 - 最好用的网页数据采集器,超过40万用户首选网页采集软件

  1. 软件版本:V6.4
  2. 支持系统:32/64位 XP / Vista / Win7 / Win8 / Win8.1 / Win10
  3. 更新日期:12月9日 (新版功能)
免费下载
官方论坛解答
(优先处理)
点击提问
八爪鱼采集器QQ群
6群:453842433 点击加入
21群:451754429 点击加入
13群:471815573 群已满
14群:123134988 群已满
24群:544166822 群已满
23群:534947023 群已满
26群:545719478 群已满
6群:453842433 群已满
25群:545320887 群已满
28群:106739425 群已满
27群:145803152 群已满
22群:519441479 群已满
21群:451754429 群已满
20群:437959025 群已满
19群:553777636 群已满
18群:290699979 群已满
17群:199766880 群已满
16群:254764602 群已满
15群:159956780 群已满
14群:123134988 群已满
13群:471815573 群已满
12群:148686415 群已满
11群:131796370 群已满
10群:333975079 群已满
9群:135632351 群已满
8群:431013573 群已满
7群:498193915 群已满
5群:470619317 群已满
4群:257583266 群已满
1群:61570666 群已满
专业版QQ群
3群:135071723 限专业版用户
2群:385161018 群已满
1群:475423041 限专业版用户
旗舰版QQ群
2群:286777906 限旗舰版用户
1群:130849246 群已满
站长采集交流群QQ群
2群:304456535 点击加入
1群:492396817点击加入
down

采集合并单元格内容的方法

标签: 实战教程,实战案例 2015/6/25 10:28:11

有些表格的格式是有几行用了合并单元格,有些又没有合并,对于这种类型的表格如下图所示:

文章讲述的入口地址为:http://gaokao.chsi.com.cn/zsjh/

 

图片1

打开网页之后如上图显示:

需要点开每所大学后面的招生专业,本文以北京大学为例,点开北京大学后面的招生专业之后,显示如下图:

图片2

可以看到图中两行格式是不一样的,那么对于这种格式的表格我们解决方法是:

首先我们打开八爪鱼,新建一个任务,添加一个打开网页的步骤到流程设计器中,填写页面URL,点击保存,打开对应的网页。

 图片3

然后选中图中北京大学后面的相关专业点击42,在弹出的对话框选择点击这个元素,如下图:

图片4

设置好之后,则会自动跳转我们需要采集表格的页面

图片5

我们针对图中的表格每一整行创建循环列表,对于图中的整行,鼠标点击的时候只会识别整行中的单独一列,我们选选中其中一列,再在弹出的页面选择TR,如下图:

图片6

选中之后,会看到如下图所示虚线框已经选择成整行了,然后选择创建一个元素列表处理一组元素:

图片7

上述操作之后,选择添加元素到列表。这时我们会看到下图,需要选择继续添加列表。

图片8

 

按照同样的方法添加第二行,这时候系统会把表格中的循环项自动识别出来:

图片9

注意:可以看到图中合并单元格的部分系统默认只添加了第一行,图中标记的那一行是没有添加的,这时候我们选择继续添加列表,把图中未添加的那一行按照同样的方式继续添加。

图片10

选择添加到列表之后,选择创建列表完成并循环列表

图片11

然后选择提取数据,并做好字段名称的命名:

图片12

注意这时候问题来了:

图片13

上图中合并单元格的部分我们点击提取数据时会发现字段对应不正确,如下图:

图片14

这种情况下我们看到没合并的单元格我们发现每行是6个,合并的单元格第二行只有5个单元格,通过这个条件做分支判断,手动拖一个循环条件放到先前创建循环列表的下方

图片15

 

第一个分支我们判断有6个单元格的正确提取数据,并把提取数据拖动到第一个条件分支里面:

图片16

拖动之后我们选择图中左边位置利用xpath做一个6个单元格的分支判断,然后点击保存

图片17

 

针对流程右边的条件分支,我们也做一个提取数据的流程。这个提取数据可以直接从左边复制到右边的边框图片18

设置好之后,可以看到右边的数据字段与数据名称是不对应的,这时候有需要用到xpath定位。注意左边单元格里面采集的是每行的第一行字段内容,而右边采集的是合并单元格里面第一行以下的内容

图片19

 

对流程中右边的提取数据进行xpath定位,点击图中的自定义数据字段,在弹出来的页面选择自定义定位元素方式,定位每个字段的相对xpath路径

图片20

 

下图是定位‘专业名称’的相对xpath

图片21

下图是定位‘计划类型’的相对xpath

图片22

依次定位好每个字段的xpath之后,我们选择下一步保存。然后进行流程的测试

图片23

测试成功,数据被顺利的采集出来了

 

 



分享到: 更多
立即下载,体验更高效简单的数据收集吧! 免费下载
规则市场
联系 我们
官方联系方式 0755-86522010
商务合作QQ 1982043845
客服咨询QQ群 106739425
点击我加入