在数据采集过程中,我们可能有这样的需求:第一次采集所有数据,后续再采集的时候只需要采集网页上新增的数据,这时候就可以使用八爪鱼的【增量采集】功能。

 

【增量采集】通过对比URL来实现增量数据的采集:

将当前URL与历史URL对比,如果相同URL与历史URL相同,则跳过不采集。反之则采集。

 

一、功能说明

在规则配置页面,点击齿轮状按钮,进入设置页面:

 

 

 

进入设置页面后,可以看到:

【启用增量采集】的选项,默认不启用的,如果启用需手动勾选。

 

同时提供两种URL对比方式:

【对比整个URL,包含所有参数】:当前整条URL与之前采集过的URL做对比,如果是完全一样的URL,则跳过不采集。

【仅对比URL及以下参数】:对比URL中的某指定参数,如果指定参数相同,则跳过不采集。

 

 

特别说明:

a. 什么是网址参数?网页链接中 &和= 之间的为参数,如下图中有【tid】 和【page】 两个参数。

 

例如:

http://bbs.fblife.com/forum.php?&tid=14094703&page=1

http://bbs.fblife.com/forum.php?&tid=14094704&page=1

 

观察以上两个网址,具有不同的tid】 参数和相同的【page】参数,

如果选择【对比整个URL,包含所有参数】,则第二条URL会被采集。

如果选择仅对比URL及以下参数】,对比【page】参数,则第二条URL不会被采集。

 

二、注意事项

 

1、【增量采集】只能用于云采集,不能用于本地采集。

因本地采集是单次采集,每次停止后都会从头开始采集,因此不能使用【增量采集】功能。

 

2、【增量采集】只能用于非AJAX的网页。

AJAX网页点击后,网址链接不发生改变,无法通过对比URL实现增量采集。

 

3、URL中有参数,才能使用【仅对比URL及以下参数】

 

例如:

以下规则是【循环-点击元素】类规则,每个点击后会跳转到新的页面。

 

 

观察发现,点击后的页面链接是不带参数的,因此无法选择【仅对比URL及以下参数】这种方式。

 

 

换一个点击后页面链接带参数的网址,如下图所示有【id】【areald】【user_id】多个参数,这时候就可以根据参数设置增量采集。

 

 

根据参数设置增量采集:

 

 

4、提取数据】步骤个数限制

整个规则中只有一个【提取数据】步骤才可以启用【增量采集】。如果有两个或以上的【提取数据】步骤,是不支持增量采集的。