一、云采集加速设置
由云采集原理可知,一个任务要拆分成多个子任务,使用更多的云节点同时运行多个子任务,才能实现加速采集的效果。
任务如果要拆分成子任务,需满足一定条件。以下三类任务是可以拆分的:
1、URL循环
2、文本循环
3、固定元素循环
1、URL循环
URL循环类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。
当URL数<=100时,拆分成与URL数相同的子任务数。当URL数>100时,拆分成URL数/100的子任务数(取整数)。例,循环中有30个URL,将被拆分成30个子任务;循环中有278个URL,将被拆分成2个子任务。

示例网址:
http://www.ggzy.gov.cn/info/zcwj00/2023-11/08/content_5a8bb0aeabb644288530125b3b297458.shtml
http://www.ggzy.gov.cn/info/zcwj00/2023-11/08/content_91821e3781e245a9885448c27f6a03e4.shtml
http://www.ggzy.gov.cn/info/zcwj00/2023-08/10/content_55ae9d896b4a469e92bf8a7608025d9c.shtml
http://www.ggzy.gov.cn/info/zcwj00/2023-02/23/content_68cddeb3febc4c5c99405fcbe485836b.shtml
http://www.ggzy.gov.cn/info/zcwj00/2023-02/06/content_bec97e8ddfea4f0fa99f562c67ca360b.shtml
5个详情页网址,需要采集每个详情页中的数据。
Step1:建立URL循环

Step2:启动云采集,点击【任务运行信息】,可以看到此任务的5条URL,拆分成5个子任务同时采集,加快采集速度

2、文本循环
文本循环类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。
当输入的文本数<=100时,拆分成与输入文本数相同的子任务数。当输入文本数>100时,拆分成输入文本数/100的子任务数。
文本循环拆分原理和URL循环一致,通过对文本循环的拆分,达到加速采集的效果。具体可见 教程:文本循环

3、固定元素列表循环
固定元素列表类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。
当固定元素列表类数<=100时,拆分成与固定元素列表数相同的子任务数。当固定元素列表数>100时,拆分成固定元素列表数/100的子任务数。
值得注意的是,【循环-点击元素】类规则,使用【固定元素列表】的循环方式后云拆分,才会有明显加速效果,如下图所示:
【循环-点击元素】有2种常见采集场景:① 点击商品/文章链接进入详情页,采集详情页数据的情况。② 点击条件类链接进行分类采集。

如果是【循环-提取数据】类规则,没有点击步骤,则使用【固定元素列表】的循环方式后云拆分,加速效果并不明显,如下图所示:

二、采集场景
示例网址:http://deal.ggzy.gov.cn/ds/deal/dealList.jsp
采集需求:点击进入商品详情页,采集每个详情页中的数据。
Step1:建立循环点了进入详情采集正文

这时候我们查看循环列表的方式,发现是固定元素的方式

Step2:启动云采集,点击【任务运行信息】,可以看到此任务的20条列表数据,拆分成20个子任务同时采集,加快采集速度