免费下载

八爪鱼采集器 - 最好用的网页数据采集器,超过40万用户首选网页采集软件

  1. 软件版本:V6.4.3
  2. 支持系统:32/64位 XP / Vista / Win7 / Win8 / Win8.1 / Win10
  3. 更新日期:03月22日 (新版功能)
免费下载
微信订阅号:八爪鱼采集器Live
扫一扫,关注我们
教程 | 功能点 | 实战案例
官方论坛解答
点击提问
免费版QQ群
1群:470619317 点击加入
2群:148686415 点击加入
专业版QQ群
2群:135071723 限专业版用户
1群:385161018 限专业版用户
旗舰版QQ群
2群:286777906 限旗舰版用户
1群:130849246 限旗舰版用户
站长采集交流群QQ群
2群:304456535 点击加入
1群:492396817点击加入
down

云采集排错教程

标签: 云采集,v7.0 2017/7/7 15:55:04

云采集排错教程


本教程针对本地采集有数据,云采集没有数据的排错教程,如果本地采集没有数据,请先参考本地采集排错教程

本地采集有数据,云采集没有数据主要原因为以下三点:


1.云服务器IP被所采集网站封禁

2.Cookie访问限制

3.网站或网速原因

 

一、云服务器IP被封锁


以天猫为例:

本地采集时正常,如图 1 天猫本地采集


动图1 天猫本地

1 天猫本地采集

此时我们可以很直观的看到,本地采集的网页网址是正常的列表信息网址,如红框图 2 天猫列表信息网址


截图2

2 天猫列表网址


然后我们将任务启动云采集,会发现任务完成后,并没有采集到任何数据,如图 3 天猫云采集


动图3

3 天猫云采集


此时我们把任务复制出来,删除其他操作步骤,仅留打开网页,然后在打开网页处增加一个提取数据,添加三个固定字段,云采集,如图4 提取三个固定字段


动图4

4 提取三个固定字段

启动云采集后,我们看到云采集截图如下:


图5

5 云采集结果

再对比下本地采集时采集的结果,如图:


截图6

6 本地采集结果

如果一致,则节点正常,如果不一致,如图所示:


截图7

7 云采集不一致


如图红线部分,明明采集的是天猫,云节点打开后网址是login.tmall.com,云节点上要求登陆了,因为我们可以判断出云服务器IP被所采集的网站封禁了

小贴士 如果发现打开网页没有问题,我们可以验证下其他步骤,例如下一步是循环下一页,则我们可以提取下循环的Inner HTML(或Outer HTML),把循环的XPATH单独拿出来,做提取数据,然后提取方式选择Inner HTML,如图:


动图8

8 提取循环的Inner HTML


如果下一页正常加载,云采集数据如此,如图红线处:


截图9

9 云采集截图


小贴士 至此,云采集IP被封禁排错原理已经讲完,具体是那个操作出现了问题,可以按上面的步骤多次提取排查,如果提取正常,那么整个流程就会正常执行,如果提取不到数据,就说明该步骤有问题,网页打开和本地采集做流程时不一致

 

二、Cookie访问限制

Cookie访问限制一样,可以按云采集IP封禁进行排错,如果发现云采集采集下来的网址URL含有“login”等登陆信息,如图10

 截图10 副本

10 云采集页面URL

具体如何采集页面网址URL,见第一大类(一、云服务器IP被封锁)详细操作,如果发现需要登陆,有以下两种解决方案:

A.将登陆做进流程设计

B.Cookie登陆

C.登陆的全部教程地址

 

三、网站或网速原因

 

知识补充 如果一点网站未完全打开,则显示如图11红线处:


截图11

11 未完全打开的网页

 

如上图,我们可以明显看到,网站网页URL明显有红框处在转的图标:图12

一个完全打开的网站,应该如图所示:


图13

12 完全打开的网页

 

有时候一个网页,即便完全打开了,列表数据也要延迟几秒才能加载出来,如图所示:


图片13替代

13 网页完全打开数据列表数据没有完全加载


如图红框1,网页已经处于完全打开状态,但是红框2的列表数据还没有加载出来,在八爪鱼中,如果一个操作已经完全执行完成(例如:网页完全打开),那么它会立即执行下一个操作步骤,但此时如图红框2,列表数据没有加载出来,所以执行失败,云采集没有数据

 

解决措施:碰到这种因网速原因或者网站本身原因,导致数据加载过慢时,我们只需要做以下操作,如图14


动图14

                  图 14 执行前等待或出现元素

以上的设置适用于流程设计步骤高级选项中含有执行前等待的所有操作,设置完成后,只要满足“执行前等待”、“出现元素”中的任一条件就可以向下执行,通过这样的设置,我们可以避免数据加载过慢或者网站完全打开后列表数据还未加载的情况

 

总结:以上就是我们云采集通用排错教程,仔细阅读并理解其原理能够帮我们更好的采集互联网公开数据



分享到: 更多
人工服务

立即下载,体验更高效简单的数据收集吧! 免费下载

粤公网安备 44030502000701号