八爪鱼,最好的网络爬虫工具

八爪鱼采集器使用要点

作者:keven 发布时间:2018/3/12 9:34:59 909 人已阅读

摘要:不少用户会在工单或者是扣扣群里咨询八爪鱼采集相关的问题,我们把这些问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用八爪鱼采集器遇到的问题。

不少用户会在工单或者是扣扣群里咨询八爪鱼采集相关的问题,我们把这些问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用八爪鱼采集器遇到的问题。

 

1、手动检查工作流设计器中的规则

 

采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当可以先检查配置的规则是否有效,寻找存在的问题,最好在运行任务之前手动检查工作流程中的规则。这样可以看到哪些步骤在可视内置浏览器和数据字段中不起作用。因此,一旦发现错误,可以修改相应地规则。查看下面的教程可以了解规则排错的具体方法:

 

八爪鱼7.0版本——基本排错教程:

/tutorialdetail-1/jbpc_7.html

 

 

2、设置正确的超时和滚动时间

 

有时会发现,即使配置了正确的规则,并且可以在手动检查规则时获取数据,但是在启动提取时,数据却会遗漏。这是因为没有设置高级选中的Ajax, 最简单的方法是在规则中选中“打开网页”和“点击元素”的操作下设置AJAX加载。另外,您可以在工作流设计器的不同操作下设置等待时间,以便确保加载所需的数据。

 

有时网页会出现这样的情况,除非向下滚动,否则不会显示某些内容,因此需要在“打开网页”这一步骤中设置滚动时间,否则可能会遗漏设置滚动时间而错过某些数据。选择向下滚动的方式并设置适当的滚动时间。这对采集到完整的数据也很重要。

 

但在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后进行; 如果不是,即使您更改了规则,该规则仍然无效。

 

此外,我们不建议同时选择“在新标签页中打开”和“AJAX加载页面”,除非八爪鱼仍然无法打开某些网站。

 

具体操作可以参照这个教程:/tutorialdetail-1/ajaxdjfy_7.html

 

3、手动修改XPath

 

正确使用XPath是使用八爪鱼采集数据的关键。列如翻页,缺失数据和不规则值域等步骤大多数时间涉及XPath的更改。所以强烈建议用户学习一些关于XPath的知识。只需稍微了解一下XPath就可以帮助您解决使用八爪鱼时遇到的许多问题。下面的教程可以帮助您快速学习XPath。

 

XPath入门1

/tutorialdetail-1/xpathrm1.html

 

XPath入门2

http://www.bazhuayu.com/media/44656/xpath.pdf

 

4、设置缓存设置

 

有时我们会发现内置浏览器在“打开页面”的操作下未打开需要采集的网址。这可能是因为打开网站的次数过多,并且计算机记录了缓存。所以需要选择在打开网页前清除缓存,然后打开需要的网站即可。

 

设置缓存的另一个例子是提取需要登录的网站。登录后,您可以选择“使用指定的Cookie”来记录您的账户信息,以便您不需要一次又一次检查登录步骤。这也会保护你的个人信息。

 

cookie指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密),在八爪鱼里获取登陆后的cookie记住登陆状态达到采集数据的目的。

 

cookie登陆方法:

/tutorialdetail-1/cookie70.html



分享到: 更多