本教程将介绍私有云套餐,并讲解如何查看/管理账号下的云采集节点,优化分配策略,提高采集效率。


一、私有云基本介绍

私有云是八爪鱼SaaS版本中的最高版本。私有云处于特定集群,拥有固定的云节点数,通常为30个或100个。

旗舰/旗舰+版,则处于公共集群,其节点数是浮动变化的,所有旗舰/旗舰+用户一起争夺节点的使用权。

 

二、私有云可手动调整每个任务的云节点数

私有云账号下的每个任务,云采集的最大可用节点数,默认为2(即每个任务最多有2个云节点同时进行采集)。

我们可以手动调整每个任务分配的云节点数,以更合理有效利用云节点。例如,给紧急的任务多分配一些云节点,提高任务优先级,以便在更短时间内完成紧急任务的数据采集。

调整后的节点数长期有效,再次启动或复制/导入导出任务,也无需重新设置节点数。

 

1、云节点分配入口

节点数的调整位置有三处:分别是客户端内的任务列表,官网的用户中心,团队协作管理平台。

 

a. 客户端内的任务列表(推荐)

点击【我的任务】进入任务列表。找到最右侧的【更多操作】,点击【...】,鼠标移动到【云采集】上,再移动到【分配资源】上,然后点击它。

 

 

最后在弹窗中设置该任务的最大可用节点。

 

 

b. 官网的用户中心

在官网登录,进入用户中心后,点击【任务和云节点管理】即可跳转到任务管理页面。找到所需要调整的任务,点击【修改】,然后在弹窗中修改云节点的数量。

 

 

c. 团队协作管理平台

 

团队协作管理平台的操作权限默认关闭,如有需要可找对接的商务和专属技术支持免费开通。团队协作管理平台登录入口:http://app.bazhuayu.com/login 操作说明:https://www.bazhuayu.com/tutorial/tdxz 

 

登录团队协作管理平台后,点击【任务管理】,进入任务列表。找到最右侧的【更多操作】,点击【...】,鼠标移动到【云采集】上,再移动到【分配资源】上,然后点击它。

 

 

最后在弹窗中设置该任务的任务占用节点。

 

 

2、云节点分配原则

根据云采集加速原理可知:任务能拆分的子任务越大,能同时执行云采集的云节点越多,采集的速度就越快。在实际采集过程中,账号内云节点的数量是有限的,也就是说,云采集速度的快慢,主要由当前在采集的子任务数决定,此数值越大,采集越快。

 

如何查看每个任务正在运行的子任务数?

通过 云采集实况功能,可查看子任务的拆分和运行情况:

 

 

如何得知账号正在运行的云节点数?

在【我的任务】界面,【云采集状态】中筛选出全部的【运行中】任务,依次查看每个任务的 云采集实况,然后将每个任务的【运行中】子任务数相加,即可得到当前时间账号有多少个云节点正在采集数据。

 

 

云节点分配原则:

a. 最大可用节点数不大于任务的已拆分子任务数。如默认已拆分子任务数是10,那它最多同时使用10个云节点,就算分配了20个,它也用不上全部的。多余的节点会自动给其他任务。

b. 云采集实际运行速度,取决于运行中的子任务数。如某任务设置的最大可用节点数是5,运行中的子任务数是5,等待中的子任务数是0。此时是通过调整最大可用节点数是无法提升任务的采集速度。因为任务全部子任务都已启动了采集。但如果运行子任务数5,等待子任务数为7。此时希望它运行快些,可调大最大可用节点数,此时调整成12即可(云节点占有量<=运行子任务数+等待子任务数),多给了云节点也用不上。

c.  一般而言,在账号内空闲节点充足的情况,建议给某个任务设置最大可用节点数为已拆分子任务数的50%~100%。账号内空闲节点非常紧张的情况,每个任务的最大可用节点数=账号总节点/同时运行任务数。这样会相对均衡,让每个任务都能有一定量的节点来采集数据。

d. 已经分配出去的云节点,完成该子任务的采集之后,才会被回收到账号中供其他任务使用。如:任务A的最大可用节点数是30,启动云采集后,这30个节点都在进行采集(即该任务运行中的子任务数是30)。随后又想降低任务A的云节点,分配一些节点给任务B使用。此时将任务A的最大可用节点数调成10个,那20个节点并不会马上转给任务B使用。而是继续运行任务A的子任务,该子任务完成后,才会转给任务B使用。

 


特殊情况说明:

 

1、有时可能出现所有运行中的子任务数之和小于账号节点数。所有的云节点都分配出去,并且 等待中子任务数+运行中子任务数>账号节点数。

原因:实际上节点是已经占用满了。但由于子任务分配节点的时间大于节点完成采集的时间,所以在查询的瞬间会出现节点用不满的假象。

举个例子,任务A的每个子任务只需要10秒就可以完成采集,但每个子任务分配上云节点并启动需要花费20秒。故在查询的瞬间就会出在采集的节点少,分配并启动的多。而我们的【运行中子任务数】,只是查询并显示正在采集过程中的,那类分配并启动中的不会查询到。故看起来像是节点用不满。

 

2、启动云采集后,【运行中】没有看到这个任务。

原因① :查看过快。任务在启动后,服务器需要先对任务进行预处理,判断能不能拆分,能拆分的执行拆分程序,然后分配云节点来执行子任务。这些过程会耗费些时间,如果立马查看,在【运行中】是看不到的,但在【等待运行】里可以看到。稍等一会后,就可以在【运行中】查看到了。

原因②:查看得太晚了,任务已经完成采集。此时可以在【完成中】可查看。