请输入
菜单

云采集漏数据可能原因与排查方法

1、自身统计有误。翻查网页,尤其是最后几页,重新统计。

 

2、网站本身没有那么多的数据。

 

3、对云采集的原理认识不够,机械的将云采集数据和本地采集的数据进行对比。数据没采集完,发现与本地数据不一样就认为云采集漏数据了,实际上它只是被放在了后面。参考教程:云采集原理和规则加速设置

 

4、将去重后的云采集数据与未去重的本地采集数据对比,觉得云采集数据少了。云采集数据会自动去重,看到的都是非重复数据。

 

5、规则更改过,换过采集网址(URL),将更改后规则的数据与之前的对比,数据不同是很正常的。应该只对比同一个规则本地采集和云采集的数据。 

 

6、网页格式发生变化,原来的xpath定位不准确,导致少数据。这种情况需要检查循环列表的xpath定位是否正确,不正确的话需要手动修改xpath。

 

7、网站存在防采集措施(验证码、登录、封IP),导致云采集无法顺利采集所有数据。封IP和验证码,云采集和本地采集可以考虑使用代理IP或者验证码套餐。

 

验证码充值到余额进行购买

 

8、规则本身本地采集就会漏数据,这种情况请看规则排错教程修改规则。

 

教程链接:https://www.bazhuayu.com/helpcenter/docs/Uk79nt

 

9、字段不存在。流程中有多个提取数据,如果某一个提取数据由于字段不存在而未提取到,同时设置的是“提取不到数据,该步骤所有字段留空”,则整条数据会被删除,这样就会存在漏掉该数据,可将提取数据中某一个字段设置成固定字段(例如:当前时间、当前页面网址等一定能提取到的数据信息)。

 

 

若有疑问可加企业微信群咨询!

最近修改: 2023-11-02