请输入
菜单

云采集原理和规则加速设置

一、云采集原理

1.云采集是什么?

云采集是指,使用由八爪鱼提供的云服务进行数据采集。八爪拥有5000+云服务器,7*24小时运行云采集服务。

我们在本地电脑上将任务配置完成,测试没有问题以后,就可以选择启动八爪鱼的云采集。

注意,团队版以上用户自带云采集功能。什么是团队版?点击查看 版本套餐 。

 

2.云采集优势

与【本地采集】对比,【云采集】具有以下优势:

1、采集速度更快。

2、实现无人值守。可关闭电脑、软件进行数据采集,真正实现无人值守。

3、定时采集。云服务器是7*24小时,可设置任务的定时启动工作。

4、数据自动入库。

5、通过数据导出API接口,实现秒级导出,无缝对接内部系统。

 

3.如何启动云采集

任务配置完成以后,有多种方式启动云采集。

1、在任务配置界面,点击【采集】,选择【启动云采集】。与本地采集不同,云采集的采集方式。

在【启动云采集】后,在【我的任务】中,找到此目标任务,可以看到,此任务正在运行云采集。

 

点击,可查看云采集的采集实况,点击 按钮,可结束本次云采集。

 

云采集到的数据会实时更新显示在底部位置,本示例【采集到 100 条数据】。鼠标移动到【已采集数据到 100 条】并点击,可查看详情。采集完成后,可以根据自己实际需要的格式导出。

 

2、也可以直接在【我的任务】中,找到目标任务,点击【启动】按钮,启动云采集。

 

 

4.设置定时云采集

可通过设置定时云采集,实时采集各网站更新的数据。

1、对特定的任务设置定时云采集

找到任务,点击更多操作按钮,【云采集】-【设置时间】,会弹出一个【定时云采集】的设置弹窗。

支持多种时间方式:【只采集一次】【每周采集】【每月采集】【间隔时间采集】。请根据需要,选择定时方式。

 

本示例选择【间隔时间采集】,设置间隔时间为30分钟。

点击【保存并启动】,此任务将每间隔30分钟,自动启动一次云采集。 

 

 

2、对任务组设置定时云采集

通过【我的】进入任务列表,鼠标选择任务显示方式为【任务组】。然后将移动到任务组名称上,出现4个图标。

  图标,为任务组设置时间表。

接下来的操作,与单个任务设置定时采集的操作相同,不再赘述。

 

 

二、云采集加速设置

由云采集原理可知,一个任务要拆分成多个子任务,使用更多的云节点同时运行多个子任务,才能实现加速采集的效果。

任务如果要拆分成子任务,需满足一定条件。以下三类任务是可以拆分的:

1、URL循环

2、文本循环

3、固定元素循环

 

1、URL循环

URL循环类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。

当URL数<=100时,拆分成与URL数相同的子任务数。当URL数>100时,拆分成URL数/100的子任务数(取整数)。例,循环中有30个URL,将被拆分成30个子任务;循环中有278个URL,将被拆分成2个子任务。

示例网址:

http://www.ggzy.gov.cn/info/zcwj00/2023-11/08/content_5a8bb0aeabb644288530125b3b297458.shtml

http://www.ggzy.gov.cn/info/zcwj00/2023-11/08/content_91821e3781e245a9885448c27f6a03e4.shtml

http://www.ggzy.gov.cn/info/zcwj00/2023-08/10/content_55ae9d896b4a469e92bf8a7608025d9c.shtml

http://www.ggzy.gov.cn/info/zcwj00/2023-02/23/content_68cddeb3febc4c5c99405fcbe485836b.shtml

http://www.ggzy.gov.cn/info/zcwj00/2023-02/06/content_bec97e8ddfea4f0fa99f562c67ca360b.shtml

5个详情页网址,需要采集每个详情页中的数据。

 

Step1:建立URL循环

 

Step2:启动云采集,点击【任务运行信息】,可以看到此任务的5条URL,拆分成5个子任务同时采集,加快采集速度

 

2、文本循环

文本循环类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。

当输入的文本数<=100时,拆分成与输入文本数相同的子任务数。当输入文本数>100时,拆分成输入文本数/100的子任务数。

文本循环拆分原理和URL循环一致,通过对文本循环的拆分,达到加速采集的效果。具体可见 教程:文本循环

 

3、固定元素列表循环

固定元素列表类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。

当固定元素列表类数<=100时,拆分成与固定元素列表数相同的子任务数。当固定元素列表数>100时,拆分成固定元素列表数/100的子任务数。

值得注意的是,【循环-点击元素】类规则,使用【固定元素列表】的循环方式后云拆分,才会有明显加速效果,如下图所示:

【循环-点击元素】有2种常见采集场景:① 点击商品/文章链接进入详情页,采集详情页数据的情况。② 点击条件类链接进行分类采集。

如果是【循环-提取数据】类规则,没有点击步骤,则使用【固定元素列表】的循环方式后云拆分,加速效果并不明显,如下图所示:

 

示例网址:http://deal.ggzy.gov.cn/ds/deal/dealList.jsp

采集需求:点击进入商品详情页,采集每个详情页中的数据。

 

Step1:建立循环点了进入详情采集正文

 

这时候我们查看循环列表的方式,发现是固定元素的方式

 

Step2:启动云采集,点击【任务运行信息】,可以看到此任务的20条列表数据,拆分成20个子任务同时采集,加快采集速度。

 

 

 

最近修改: 2024-01-17