八爪鱼,最好的网络爬虫工具

掌握『八爪鱼云采集』,少加班少熬夜!

作者:keven 发布时间:2019/8/9 16:01:59 516 人已阅读

摘要:掌握『八爪鱼云采集』,少加班少熬夜!

fd8f9018462240fea9eb8ef8a3143edc.jpg

 

 

在数据采集工作中,你经常遇到以下问题?

 

 

1、上级任务赶,数据采集慢?

 

老板要求马上提供5000条数据,你却发现用普通采集需要27.7个小时!!这堪称不可能完成的任务!!

 

2、买了高级版本,结果不会用?

 

花钱买了高级版本,结果不会用云采集、速度还是没有改善?

 

 

▼▼▼

 

 

本着让爪子们少熬夜,少加班的目标,小编借此机会向大家“普及一下”『云采集』的优势到底在哪里?如何将它的价值100%发挥出来?

 

 

 

云采集真的比本地采集快?

 

那必须的!

 

 

 

作为八爪鱼高级版本的一大亮点,云采集是实实在在地帮助用户提升采集速度!

 

以文章开头小张采集科创板申报企情数据举例,同一个任务,云采集只需花4分10秒, 而本地采集需要30分16秒

 

 

有图有真相!

建议放大看!

 

 

科创板数据——云采集模式▲

 

 

 

科创板数据—本地采集模式▲

 

 

 

为什么云采集那么快?

 

 

1、什么是云采集?

 

 

云采集。即通过云服务器(云节点)实现多任务并发采集以便加快用户收集互联网公开数据。

 

云节点。一个云节点可以理解为“一台云服务器”,可以运行一个八爪鱼采集任务。

 

 

云采集与本地采集的区别▲

 

 

 

2、云采集加速诀窍——『任务自动拆分』

 

云采集模式下,运行一个任务至少占用一个云节点,最多可以占满该版本所拥有的所有云节点。一个规则任务可拆成多个子任务,分配到不同云节点执行,达到并行加速采集的效果。

 

 

 

3、云采集拆分需满足3个条件(任一)

 

当任务满足以下3个拆分条件(任一),一个规则任务便可拆分成多个子任务并行采集,实现云采集加速!一个任务最多支持拆成199个子任务;

 

条件1:网址URL列表循环

条件2:文本循环

条件3:固定元素列表循环

 

 

3种模式 + 3个示例网站

云采集 vs 本地采集 耗时、速度区别

 

 

3种循环任务示例:

 

 

1)网址URL列表循环

 

示例:科创板采集网址URL循环

 

 

 

科创板云采集任务自动拆分

 

 

 

2)文本循环采集

 

示例:百度搜索关键词文本列表循环

 

 

 

百度采多个关键词任务自动拆分

 

 

 

3)固定元素列表循环采集

 

示例:Q房网房源列表循环

 

 

 

 

Q房网房源列表任务自动拆分

 

 

 

 

温馨提醒:不懂这3个循环条件名词,赶紧关注『八爪鱼大数据』公众号后台回复“学习”获得8G八爪鱼史上最全学习资料包,恶补『八爪鱼基础8节课』)

 

不懂的打PP

 

 

 

4、云节点不够用,怎么办?

 

如云节点不够用,那么剩下的子任务会进入等待队列,直到某个云节点执行完某个任务释放出新的节点资源。

 

当然,你还可以选择扩充你的节点数量,升级八爪鱼更高版本,享受Vip服务哦。

 

金主爸爸大腿

 

 

 

 

所有任务都适用云采集拆分?

 

 

温馨提醒!

 

如不满足上述任何一个拆分条件,则无法触发云采集任务拆分。

 

 

 

 

有爪爪问:“要是不满足拆分条件,那云采集对我岂不是没用了?!”

 

并不是!!!

 

我们可以试着『优化规则』,让它变得满足云采集拆分条件。

 

例如,我们想采集一批网站数据。我们可以先将网站URL批量采集下来,然后再创建URL循环进行采集,这样就能满足云采集拆分条件,从而实现加速。

 

 

 

 

云采集还有哪些优点?

 

 

 

1、数据云同步

 

云采集数据自动保存在云端,即使切换了办公场景或电脑,只要登录八爪鱼账号,便能将数据从云端下载下来。

 

 

2、数据自动备份3个月

 

用户通过云采集获得的数据将自动保存3个月,即使当下忘记下载,也不怕数据丢失。

 

 

3、数据自动去重

 

数据如有重复,云采集将自动筛除重复数据,只保留有效数据。

 

 

4、定时采集

 

下班后还有数据要采集,可以在八爪鱼里“定个闹钟”,到点了云采集自动运行数据采集工作。

 

 

5、定频采集

 

这个功能非常适合采集新闻、政策发布这类定时更新的网站来源。用户将采集规则和频率设置好,就可以安心托管给八爪鱼,躺着收割数据。

 

 

6、关机24小时采集

 

这个功能的优势在于,它杜绝了突然遇到电脑死机、断电、断网,导致本地采集任务停止的情况。云采集任务在云服务器上运行,即使电脑关机了,也照样24小时工作。

 

 

7、不占用电脑CPU

 

由于云采集是在云服务器上运行,不占用本地电脑CPU,即使你同时开启多个云采集,你电脑性能不会受到影响。而本地采集需要占用电脑CPU,一旦同时启动多个,电脑性能将受到影响,造成卡顿,影响您的工作。

 

 

 

 

如何装备八爪鱼『云采集』?

 

 

 

 

 

目前八爪鱼有3个版本支持云采集,升级后自动开通。

 

有意向的用户请咨询我们:0755-86702246 

 

或访问八爪鱼官网 www.bazhuayu.com,点击“欢迎咨询”联系在线客服。

 

工作时间:工作日 9:00-12:30、14:00-18:00


企业试用