经过前几课的学习,我们已经掌握了列表数据表格数据点击多个链接后的详情页数据实现翻页 的任务配置方法。

 

任务配置完成后,需要启动一个采集任务,去全自动的采集数据。用八爪鱼配置好的任务可运行在本地电脑中,也可运行在云服务器上。

 

数据采集完成以后,可选择Ecxel、CSV、HTML、数据库(SqlServer、MySql)、API等多种形式导出。

Excel:2W条数据一个文件,超字符会截断。

CSV:2W条数据一个文件,超字符会截断。

HTML:一条数据一个文件。

数据库(SqlServer、MySql):单批次可导出1-2000条数据。可设置定时导出,时间间隔为1-24小时。

API:秒级导出。

 

一、启动采集任务

 

1、【启动本地采集】

 

【启动本地采集】即用自己的本地电脑进行数据采集。常用于任务调试或小规模数据采集。【启动本地采集】后,会新开一个任务采集窗口,采集过程中不可关闭此采集窗口,否则将中断采集任务。

 

 

 

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

 

在任务采集窗口中,我们可以清楚看到八爪鱼的采集状态,进而判断采集任务是否正常执行。例:内置浏览器是否正常打开网页,是否正常翻页,是否正常提取数据...... 八爪鱼提取到的数据,会显示在浏览器下方的数据预览窗口中。

 

 

为了更好的观察采集状态,可点击  按钮将数据预览窗口隐藏。再次点击  按钮,即可再次展现数据预览窗口

 

 

2、【启动云采集】

 

【启动云采集】即用八爪鱼的云服务集群进行数据采集。在本地将任务配置完成,测试没有问题以后,可【启动云采集】,将任务交给八爪鱼的云服务集群去采集。

 

 

特别说明:

a. 云采集是八爪鱼旗舰版以上用户才可使用的。点击查看 版本套餐

 

b. 与【本地采集】相比,【云采集】具有以下优势:

提高采集速度。云集群采用分布式部署方式,多节点同时采集,有效提高采集速度。

实现无人值守。可关闭电脑、软件进行数据采集,真正实现无人值守。

配合【验证码自动识别】【优质代理IP】,突破网站防采集策略。

定时采集、自动入库、实时对接内部系统。云采集集群是7*24小时工作,可设置任务的定时采集。云采集数据可设置自动入库,通过API实时对接内部系统。

 

 

 

二、数据导出

 

数据采集完成以后,可选择需要的格式导出。

 

【本地采集】数据可导出为:

Ecxel、CSV、HTML

数据库(SqlServer、MySql),需手动导出到数据库,单批次可导出1-2000条数据。

 

 

【云采集】数据可导出为:

Ecxel、CSV、HTML

数据库(SqlServer、MySql),单批次可导出1-2000条数据。可设置定时导出,时间间隔为1-24小时。

API,通过调用API,无缝对接内部系统,实现秒级导出。

 

【云采集】数据默认保存3个月,之后将被永久删除。请及时导出【云采集】数据

 

 

作者:Aisling
编辑:Aisling