采集场景

在百度首页 https://www.baidu.com/  输入关键词搜索,采集搜索后得到的搜索结果。

 

 

采集字段

标题、网页链接、简介

 

采集结果

采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:

 

 

教程说明

本篇更新时间:2020/5/15    八爪鱼版本:V8.1.12

如果因网页改版造成网址或步骤无效,无法采集到目标数据,请联系官方客服,我们将及时修正。

 

采集步骤

步骤一、打开网页

步骤二、批量输入多个关键词并搜索

步骤三、创建【循环翻页】,采集多页数据

步骤四、创建【循环列表】,采集所有搜索结果中的数据

步骤五、编辑字段,修改字段的Xpath

步骤六、启动采集

 

以下为具体步骤:

 

步骤一、打开网页

 

在首页【输入框】中输入目标网址 https://www.baidu.com/,点击【开始采集】,八爪鱼自动打开网页。

 

 

特别说明:

a. 打开网页后,如果开始开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程

 

步骤二、批量输入多个关键词并搜索

 

通过以下几步,实现批量输入多个关键词。

1、先输入一个关键词并搜索

2、批量输入多个关键词

 

1、先输入一个关键词并搜索

选中百度搜索框,在操作提示框中,点击【输入文本】,输入关键词并保存。

选中【百度一下】按钮,在操作提示框中,点击【点击该按钮】,出现关键词的搜索结果列表页。

 

 

特别说明:

a.如果选中了输入框,但是操作提示框没有【输入文本】这个选项,则很有可能是选中输入框的范围不对,选择时可尝试不同大小的范围。(选中范围会被绿色覆盖,注意观察下面2个图,正确示范和错误示范中,输入框被绿色覆盖的范围)。

 

2、批量输入多个关键词

 

经过第一步,实现输入一个关键词并搜索。

如需批量输入多个关键词,需按如下步骤操作:

 

① 在【打开网页1】步骤后,添加一个【循环】。

② 将【输入文本】和【点击元素】都拖入【循环】中。

 

 

③ 进入【循环】设置页面。选择循环方式为【文本列表】,点击     按钮,将我们准备好的关键字输进去(可同时输入多个关键字,一行一个即可)后保存。

 

④ 进入【输入文本】设置页面,勾选【使用当前循环里的文本来填充输入框】,勾选【执行前等待】,时间选择2s,设置好之后保存。

 

⑤ 进入【点击元素】设置页面,勾选【执行前等待】,时间选择3s推荐设置3-5s);【Ajax超时】,时间选择10s推荐设置5-10s),设置好之后保存。

 

 

特别说明:

a. 示例中输入的关键词是【八爪鱼采集器】和【云听CEM】,可根据自身需求进行替换。

b.一次最多输入2W个关键字。可先准备一个包含多个关键字的文档,然后将其复制粘贴进八爪鱼中。

c. 执行前等待,即在执行此步骤前等待一段时间,可有效避免因网页未加载完全导致的漏数据,详情点击查看 执行前等待使用场景与设置方法

d. 使用了Ajax技术的网页,一般不勾选【在新标签中打开】。【Ajax超时】请根据采集需求和网页加载情况进行设置,并非是一成不变的,详情点击查看 Ajax教程 。

 

至此,循环输入关键词,点击搜索的步骤就做好了。做好之后的流程图如下所示:

 

 

步骤三、创建【循环翻页】,采集多页数据

 

1、建立【循环翻页】

如果只是采集一页数据,可跳过此步骤。

如果需要翻页以采集多页数据:选择页面中的【下一页>】按钮,在操作提示上单击【循环点击下一页】,创建【循环翻页】。

进入【点击翻页】设置页面,勾选【执行前等待】,时间选择5s;【Ajax超时】,时间选择10s,设置好之后保存。

 

 

特别说明:

a. 创建【循环翻页】后,八爪鱼会自动点击【下一页】按钮进行翻页,从第1页,第2页......直到最后1页。如果只需采集特定页的数据,可在八爪鱼中设置循环翻页的次数,详情点击查看  翻页以采集多页数据教程

b. 执行前等待,即在执行此步骤前等待一段时间,可有效避免因网页未加载完全导致的漏数据,详情点击查看 执行前等待使用场景与设置方法

 

2、修改【循环翻页】的XPath

默认的【循环翻页】XPath会在第二页,重复翻页至第一页,导致不断重复采集第一页的数据,需修改【循环翻页】XPath。

进入【循环翻页】设置页面,修改XPath为://A[@class="n"][contains(text(),'下一页')] 

 

 

特别说明:

a.为什么要修改【循环翻页】的XPath?这是因为,当翻到第2页的时候,软件自动生成的Xpath(//A[@class="n"])定位到的是【<上一页】按钮。那么,八爪鱼采集器在执行的时候,会点击【<上一页】按钮,回到第一页,然后又点击【下一页>】按钮翻到第2页,造成的现象就是会重复采集第一页和第二页的数据。这么修改XPath,需要一定的XPath知识,点击查看 XPath学习与实例教程 

 

步骤四、创建【循环列表】,采集所有搜索结果中的数据

 

1、创建【循环列表】

 

①、选中页面上1条不是广告的搜索结果(注意一定要选中一条搜索结果的整个列表,包含所有所需字段) 

②、继续选中页面上另1条不是广告的搜索结果

③、在操作提示框中,点击【采集以下元素文本】

经过以上操作后,整块列表作为一个字段提取下来

 

 

特别说明:

a. 经过以上连续4步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有评价列表,【提取数据】中的字段,对应着每个评价列表中的字段。启动采集以后,八爪鱼就会按照循环中的顺序依次提取每个列表中的字段。 

b. 为何通过以上4步,可建立【循环-提取数据】?详情点击查看 列表数据采集教程 

c. 选中搜索结果时,如果无法一次选中一条搜索结果的整个列表时,可通过点击 操作提示框右下角的扩大选项按钮   来帮助我们扩大选择的范围。点击的时候,绿色的选中范围会一层一层的扩大。注意观察页面情况,只要绿色框正好完全覆盖第一条搜索结果的所有信息时,就可以停止点击。选中第二条搜索结果的时候,同样也可以这样操作。

 

2、提取字段

 

以上将整块列表作为一个字段提取。我们可以手动将标题、网页链接、简介字段单独提取出来。

先找到当前搜索结果列表(流程中当前步骤为【提取列表数据】时,当前项在网页上以红色框框起来),然后:

 

【标题】:选中标题,在操作提示框中点击【采集该链接的文本】。

【简介】:选中简介,在操作提示框中点击【采集该链接文本】。

【网页链接】:选中标题,在操作提示框中点击【采集该链接地址】。

 

 

特别说明:

a. 一定要在当前搜索结果列表中提取字段,否则字段提取无法与【循环列表】产生联动,会重复采集某一条列表中的字段。

b. 当网页层级在A标签时,操作提示框中才会有采集链接的提示。如果不在A标签层级,可以通过点击操作提示框右下角的扩大选项按钮   来调整选中的层级,但调整范围也是仅限于红框区域内,不可超出这个红框。

 

步骤五、编辑字段,修改字段的XPath

 

1、编辑字段

进入【提取列表数据】设置页面,可删除多余字段,修改字段名,移动字段顺序等。

 

 

2、修改字段XPath

为了精准采集到所有搜索结果中的字段,需修改字段的定位XPath。

进入【提取列表数据】设置页面,将【简介】字段的XPath修改为://div[contains(@class,'c-abstract')] 后保存。

 

 

特别说明:

a. 在【提取列表数据】步骤里面的【简介】字段。在采集时发现有问题,有字段错位的现象存在,即采集的内容不是【简介】的内容,这是由于字段的XPath定位不准确的缘故,需修改其定位XPath。这里需要一定的XPath知识。点击查看 XPath学习与实例教程 

 

步骤六、启动采集

 

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

 

 

特别说明:

a.【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。数据示例:

 

 

作者:Candice

编辑:Djacky