八爪鱼软件安装与账号注册 中,我们已经下载好了八爪鱼客户端并成功登陆账号。作为新手,如何从0开始数据采集呢?

 

我们有两种数据采集方式,每种各有千秋。

1、使用【使用模板采集数据】

八爪鱼客户端中有200+采集模板,只需输入几个参数(网址/关键词等),快速获取数据。

 

2、使用【自定义配置采集数据】

(1)使用【智能识别】,只需输入网址,自动智能识别网页上的数据。自动生成采集流程。

(2)自己动手配置采集流程,灵活应对各类采集场景。

 

本课将详细讲解【自定义配置采集数据】】,并进行相关介绍。

 

(1)、使用【智能识别】

【智能识别】,只需输入网址,自动智能识别网页数据。支持自动识别列表型网页数据、滚动和翻页。我们来看一个智能识别的示例。

 

示例网址:https://mall.ebaiyin.com/category_3.shtml

 

Step1:在首页输入框中,输入目标网址,点击【开始采集】。八爪鱼自动打开网页并开始智能识别。

 

 

给它一点时间,等待智能识别完成。

 

 

特别说明:

a. 打开网页后,默认开启智能识别。识别过程中,随时可【取消识别】或【不再智能识别】

【取消识别】:立即取消本次智能识别,可点击【自动识别网页】再次启动。

 

 

【不再智能识别】:关闭自动智能识别,点击【自动识别网页】手动开启。也可在全局设置中,再次默认开启【智能识别】。

 

Step2:智能识别成功,一个网页可能有多组数据,八爪鱼会将所有数据识别出来,然后智能推荐最常用的那组。如果推荐的不是想要的,可自行【切换识别结果】。

 

Step3:同时,可自动识别出网页的滚动和翻页。此示例网址,无需滚动,只需翻页,故只识别并勾选【翻页并采集多页数据】。

 


 

Step4:自动识别完成后,点击【生成采集设置】,可自动生成相应的采集流程,方便用户编辑修改。

 

 

Step5:然后,点击左上角的【采集】,选择【启动本地采集】,八爪鱼就会开始全自动采集数据。

 

 

Step6:采集完成后,以所需的方式导出数据即可。

 

 

注意,在Step4后,页面分为 网页显示当前页面数据预览 和 流程图 三大区块。以下分享3个区块的操作技巧。

鼠标移到3大区块之间,出现  按钮时,可通过拖拉改变区块的范围大小,便于配置规则。

 

 

网页显示


a. 
点击智能提示框中的  按钮 ,可将【操作提示框】隐藏起来。点击  按钮 ,将智能提示框调出。

 

 

 

当前页面数据预览

b. 鼠标移动到  按钮上,并拖住左右移动,可快速调整字段顺序。
c. 点击  按钮,可修改字段名称。
d. 选中【流程图】中的某个步骤,按【Delete】键可快速将其删除。也可点击   按钮,对字段进行更多操作:删除、复制、格式化等。
e. 点击  按钮,可快速添加字段:当前采集时间、当前网页信息、从网页中添加字段等。
f. 点击 按钮,可将「当前页面数据预览」隐藏起来,再次点击则固定显示在页面上。
g. 选中字段,网页同步高亮显示,方便找到字段在网页中的位置。

 



流程图

 

h. 鼠标移动到步骤上,可查看步骤详情。
i. 点击  按钮,进入步骤高级选项设置页面。
j. 点击  按钮,可对当前步骤进行更多操作:复制、粘贴、删除等。
k. 将鼠标移动到流程中的 位置,会出现  按钮。点击 按钮,可快速添加流程步骤。
l. 点击 按钮,可将流程图隐藏起来,再次点击则固定显示在页面上。

m. 鼠标移动到【流程图】展示区时,按住【Ctrl】键同时滚动鼠标,可放大/缩小流程图。

 

n. 点击「全部字段」,可显示当前任务中的全部字段。选中某个字段,网页相应位置、数据预览中都会高亮显示,可用于检查字段是否有遗漏,命名是否有误等。

 

 

值得注意的是,目前自动识别,仅支持识别列表型网页、滚动和翻页,如果列表型网页识别失败,请联系客服反馈。如果不是列表型网页,或者有更高级的采集需求,请使用【自定义配置】,自行配置采集任务。

 

(2)自己动手配置采集流程

自己动手配置采集流程,需要掌握八爪鱼的基本操作。(类似不用PPT模板,自己动手写一份PPT,需要掌握PPT的基本使用方法:文本框怎么放,动画效果怎么添加等。)

 

采集流程(或叫采集任务,采集规则),是从特定网页上抓取数据的指令。每个网站的页面布局是不同的,因此采集流程不能通用。一般情况下,一个网站需要配置一个采集流程。

 

举个例子,京东商品采集和淘宝商品采集,需要配置2个不同的采集流程。下图中就是一个配置好的采集流程。

 

 

新手如何从0开始,自己动手配置一个采集流程并抓取到数据?是 自定义入门系列课 的重点,点击跳转学习。

 

 

首页左侧边栏介绍

 

可点击   按钮,隐藏左侧边栏。再次点击,则可展开。

 

 

1 【+ 新建】

新建【模板任务】、【自定义配置任务】、任务组、导入任务的1个快捷入口。

 

 

2【我的任务】

通过【模板采集】、【智能识别】、【自定义配置】创建并保存的任务,都会放在【我的任务】中。在【我的任务】界面,可以对任务进行多种操作。

 

2.1 进行任务二次编辑(a)、多次启动(b)、按任务名搜索(c)、按条件筛选(d)。

 

 

2.2 任务选中状态下,可进行删除、导出任务、移动到分组(包含移动到新建任务组)等操作。

通过导出任务,可与别人分享【智能识别任务】和【自定义任务】。通过【模板采集】创建的任务只可使用,不可导出。

 

 

2.3 如果任务启动采集并获取到数据,可查看此任务的历史数据。

 

 

2.4 任务可按最近编辑时间排序(便于查找最近编辑任务),也可按任务组排序(便于分组管理)。

最近编辑时间排序:

 

 

按任务组排序:

鼠标移动到任务组后的空白区域,还可进行任务组重命名、删除、设置定时、设为默认任务组等操作。

 

 

3 【快速筛选】

查看云采集任务运行状态的快捷入口。

 

4【最近编辑】

快速查找最近编辑的任务。

 

5【团队协作】

提供团队协作平台,可统一管理团队成员的任务(查看/启动/复制)、数据(查看/导出/下载)、资源(云节点/代理IP/验证码)等,促进团队协作,提升采集效率。

 

6 【数据定制】

八爪鱼提供规则定制、数据定制等多项定制服务。如果不想自己采数据,可联系客服进行专业定制。

 

7【人工客服】

使用软件过程中有任何问题,都可通过【人工客服】联系我们。

 

 

8 【左侧边栏底部】  

a 设置:可进行任务组管理。添加、修改、删除、设为默认等。

b 工具箱:放置八爪鱼常用小工具。

c 教程与帮助:提供详细的教程。

d 关于我们:展示软件版本号与说明。

 

 

 

作者:Aisling

编辑:Aisling