采集场景

进入中国银行保险监督管理委员会【新闻资讯】版块下的【监管动态】栏目 http://www.cbirc.gov.cn/cn/view/pages/ItemList.html?itemPId=914&itemId=915&itemUrl=ItemListRightList.html&itemName=%E7%9B%91%E7%AE%A1%E5%8A%A8%E6%80%81  ,进入每条监管动态详情,采集其详情页信息。

 

采集字段

当前位置、标题、标题链接、发布时间、来源、正文、当前采集时间。

 

点击查看高清大图,下文其他图片同理  

 

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:

 

 

教程说明

本篇制作时间:2020/8/26    八爪鱼版本:V8.1.22

如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。

 

采集步骤

步骤一:打开网页

步骤二、创建【循环点击】,进入每个动态详情页

步骤三、提取详情页中的文本字段

步骤四、编辑字段

步骤五、创建【循环翻页】,采集多页数据

步骤六、启动采集

 

 

以下为具体步骤:

 

步骤一、打开网页

 

在首页【输入框】中输入目标网址  http://www.cbirc.gov.cn/cn/view/pages/ItemList.html?itemPId=914&itemId=915&itemUrl=ItemListRightList.html&itemName=%E7%9B%91%E7%AE%A1%E5%8A%A8%E6%80%81,点击【开始采集】,八爪鱼自动打开网页。

 

 

特别说明:

a. 打开网页后,如果开始开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程

 

步骤二、建立【循环-点击元素】,进入每条监管动态的详情页

 

1、建立【循环-点击元素】,进入每条监管动态的详情页

 

通过以下3步,实现循环点击每个链接,进入详情页:

① 选中页面上第1条监管动态链接(注意一定要选中链接)

② 再选中页面上另一条监管动态链接

③ 点击【循环点击每个链接】,进入第1条监管动态的详情页

 

 

特别说明:

a. 经过以上连续3步,【循环-点击元素】创建完成。【循环】中的项,对应着页面上所有监管动态链接。启动采集以后,八爪鱼就会按照循环中的顺序依次点击每个链接,进入详情页,以采集每条监管动态的详情页数据。 

b. 为何通过以上3步,可建立【循环-点击元素】?详情点击查看 采集点击多个链接后的详情页数据教程 

 

2、修改【循环-点击元素】Xpath

为了精准定位到所有的监管动态链接,需修改一下【循环-点击元素】的XPath。
进入【循环点击】设置页面,选择【循环方式】为【不固定元素列表】,修改XPath为://div[@class="ng-scope"]/div[@class="list caidan-right-list"]//div[@class="panel-row ng-scope"] //a,然后点击【应用】保存。

改完后,再次点击【点击元素】步骤,进入问题详情页。

 

 

特别说明:

a. 默认生成的循环方式为【固定元素列表循环】,无法精准定位到所有的问题链接,所以我们需要手动修改XPath,使之定位到所有的问题链接。这里需要一定的XPath知识。点击查看 XPath学习与实例教程 

 

步骤三、提取详情页中的文本字段

 

进入详情页后,选中页面中的文本,然后在操作提示框中,点击【采集该元素文本】。

文本类字段都可以按照这样的方式提取。示例中我们提取了当前位置、发布时间、来源、标题、正文等字段。

 

 

步骤四、编辑字段

 

1、编辑字段

在【当前页面数据预览】页面,可删除、增加多余字段,修改字段名,移动字段顺序等。

 

 

2、修改字段XPath

针对【正文】这个字段,默认生成的字段XPath,无法精准定位到所有监管动态的正文内容,需手动修改。

进入【提取列表数据】步骤设置页面,修改XPath为://div[@class="Section0"] ,然后点击【应用】保存。

 

 

3、格式化字段

格式化数据,对【当前位置】、【发布时间】和【来源】字段进行格式化数据,去除多余内容。

具体步骤如下图所示:

 

 

步骤五、创建循环翻页

 

1、创建循环翻页

如果只是采集一页数据,可跳过此步骤。

 

如果需要翻页以采集多页数据:

① 先点击流程中的【循环列表】步骤,以回到列表页(如果已在列表页可直接继续操作)

② 再选择页面中的【下一页】按钮,在操作提示上单击【循环点击下一页】,创建【循环翻页】。

 

 

2、修改【循环翻页】XPath

默认的【循环翻页】XPath会在最后一页重复翻页,需修改【循环翻页】XPath。

进入【循环翻页】设置页面,修改XPath为://div/div[@class="ng-binding"][contains(text(),"/")][substring-before(//div/div[@class="ng-binding"][2],"/")<substring-after(//div/div[@class="ng-binding"][2],"/")]/following-sibling::a[@ng-click="pager.next()"] ,然后点击【应用】保存。

 

 

3、设置执行前等待时间

① 进入【循环翻页】设置页面,设置【执行前等待】3s

② 进入【点击翻页】设置页面,设置【执行前等待】3s和【Ajax超时】7s

 

 

步骤六、启动采集

 

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

 

 

 

特别说明:

a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。数据示例:

 

 

 

 作者:Fan

 编辑:Aisling