在采集数据过程中,我们可能有这样的:第一次采集所有数据,需要再采集的时候只需要采集网络就添加的数据,这时候就可以使用八爪鱼的【增量采集】功能。

 

【增量采集】通过对比URL来实现增量数据的采集:

将当前URL与历史URL对比,如果相同URL与历史URL相同,则跳过不采集。反之则采集。

 

一、功能说明

在规则配置页面,点击状态按钮,进入设置页面:

 

 

进入设置页面后,可以看到:

【可视化增量采集】的选项,默认不可视化的,如果可以手动查看。

 

同时提供两种网址对比方式:

【对比整个URL,包含所有参数】:当前整条网址与之前采集过的网址做对比,如果是完整的网址,则跳过不采集。

【仅对比URL及以下参数】:对比URL中的特定参数,如果指定参数相同,则跳过不采集。

 

 

特别说明:

a. 什么是网址参数?网页链接中&和=之间的为参数,下面有【tid】和【page】两个参数。

 

例如:

http://bbs.fblife.com/forum.php?&tid=14094703&page=1

http://bbs.fblife.com/forum.php?&tid=14094704&page=1

 

观察以上两个网址,有着不同的tid】 参数和相同的【页面】,

如果选择【对比整个URL,包含有所有参数】,则第二条网址会被采集。

如果选择【仅对比网址及以下参数】,对比【页面】参数,第那么条网址不会被采集。

 

二、注意事项

 

1、【增量采集】只能用于云采集,不能用于本地采集。

因采集是单次采集,每次停止后都从头开始采集,因此不能使用【增量采集】功能。

 

2、【增量采集】只能用于非AJAX的网页。

AJAX网页点击后,网址链接发生改变,无法通过对比URL实现原生采集。

 

3、网址有参数,才能使用【仅对比网址及以下参数】

 

例如:

以下规则是【循环-点击元素】类规则,每天点击后会跳转到新的页面。

 

 

观察发现,点击后页面链接是不带参数的,因此无法选择【仅对比网址及以下参数】这种方式。

 

 

换一个点击后页面链接带参数的网址,如下图所示有【id】【区域】【user_id】多个参数,这时候就可以根据参数设置增量采集了。

 

 

所有参数设置增量:

 

 

4、【提取数据】步骤数限制

规则中只有一个【提取数据】一步一步实现【增量采集】。如果有两个或以上的【提取数据】,是不支持增量采集的。