请输入
菜单

云采集原理及规则加速原理

一、云采集加速设置

由云采集原理可知,一个任务要拆分成多个子任务,使用更多的云节点同时运行多个子任务,才能实现加速采集的效果。

任务如果要拆分成子任务,需满足一定条件。以下三类任务是可以拆分的:

1、URL循环

2、文本循环

3、固定元素循环

 

1、URL循环

URL循环类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。

当URL数<=100时,拆分成与URL数相同的子任务数。当URL数>100时,拆分成URL数/100的子任务数(取整数)。例,循环中有30个URL,将被拆分成30个子任务;循环中有278个URL,将被拆分成2个子任务。

示例网址:

http://www.ggzy.gov.cn/info/zcwj00/2023-11/08/content_5a8bb0aeabb644288530125b3b297458.shtml

http://www.ggzy.gov.cn/info/zcwj00/2023-11/08/content_91821e3781e245a9885448c27f6a03e4.shtml

http://www.ggzy.gov.cn/info/zcwj00/2023-08/10/content_55ae9d896b4a469e92bf8a7608025d9c.shtml

http://www.ggzy.gov.cn/info/zcwj00/2023-02/23/content_68cddeb3febc4c5c99405fcbe485836b.shtml

http://www.ggzy.gov.cn/info/zcwj00/2023-02/06/content_bec97e8ddfea4f0fa99f562c67ca360b.shtml

5个详情页网址,需要采集每个详情页中的数据。

 

Step1:建立URL循环

 

Step2:启动云采集,点击【任务运行信息】,可以看到此任务的5条URL,拆分成5个子任务同时采集,加快采集速度

 

2、文本循环

文本循环类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。

当输入的文本数<=100时,拆分成与输入文本数相同的子任务数。当输入文本数>100时,拆分成输入文本数/100的子任务数。

文本循环拆分原理和URL循环一致,通过对文本循环的拆分,达到加速采集的效果。具体可见 教程:文本循环

 

3、固定元素列表循环

固定元素列表类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。

当固定元素列表类数<=100时,拆分成与固定元素列表数相同的子任务数。当固定元素列表数>100时,拆分成固定元素列表数/100的子任务数。

值得注意的是,【循环-点击元素】类规则,使用【固定元素列表】的循环方式后云拆分,才会有明显加速效果,如下图所示:

【循环-点击元素】有2种常见采集场景:① 点击商品/文章链接进入详情页,采集详情页数据的情况。② 点击条件类链接进行分类采集。

如果是【循环-提取数据】类规则,没有点击步骤,则使用【固定元素列表】的循环方式后云拆分,加速效果并不明显,如下图所示:

 

二、采集场景

示例网址:http://deal.ggzy.gov.cn/ds/deal/dealList.jsp

采集需求:点击进入商品详情页,采集每个详情页中的数据。

 

Step1:建立循环点了进入详情采集正文

 

这时候我们查看循环列表的方式,发现是固定元素的方式

 

Step2:启动云采集,点击【任务运行信息】,可以看到此任务的20条列表数据,拆分成20个子任务同时采集,加快采集速度


 

 

 

上一个
定时云采集
下一个
云采集日志
最近修改: 2026-02-02