八爪鱼软件安装与账号注册 中,我们已经下载好了八爪鱼客户端并成功登陆账号。作为新手,如何从0开始数据采集呢?

 

我们有两种数据采集方式,每种各有千秋。

1、使用【使用模板采集数据】

八爪鱼客户端中有200+采集模板,只需输入几个参数(网址/关键词等),快速获取数据。

 

2、使用【自定义配置采集数据】

(1)使用【智能识别】,只需输入网址,自动智能识别网页上的数据。自动生成采集流程。

(2)自己动手配置采集流程,灵活应对各类采集场景。

 

本课将详细讲解【采集模板采集数据】,并进行相关介绍。

 

1、使用【使用模板采集数据】

顾名思义,【采集模板】是由八爪鱼官方提供的、做好的采集模板。用户只需输入几个参数(网址、关键词、页数等),就能在几分钟内快速获取到目标网站数据。(类似PPT模板,只需改改信息就能直接使用。)

 

1.1 如何找到所需的【采集模板】?

 

1.1.1 首页【输入框】

在客户端首页【输入框】中,输入目标网站名称,八爪鱼自动寻找相关的采集模板。将鼠标移到需要的模板上并单击,进入模板详情页面。

 

 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

 

特别说明:

a. 输入网站名称后无模板出现?请确保输入的网站名称正确。

 

1.1.2 首页【热门采集模板】

点击【热门采集模板】中的模板,或者【更多>>】,进入采集模板展示页面。可通过【模板类型】、【搜索模板】多种方法,寻找目标模板。

 

 

 

1.1.3 没有所需的模板?

没有找到想要的模板?请进入模板展示页面后,点击右上角【我想要新模板】,提交新模板制作需求。

 

 

1.2 【采集模板】如何使用

 

1.2.1 进入【模板详情页】后,仔细阅读【模板介绍】、【采集字段预览】、【采集参数预览】、【示例数据】,确认此模板采的数据符合需求。

 

 

特别说明:

a.  模板中的字段是固定的。想要增加模板中的字段?请联系客服。

 

1.2.2 点击【立即使用】,自行【配置参数】。常见的参数有关键词、页数、城市、URL等。请按照模板介绍中的使用方法说明,输入正确的参数。

 

 

1.2.3 然后点击【保存并启动】,选择启动【本地采集】。八爪鱼自动启动1个采集任务并采集数据。

 

 

 

1.2.4 数据采集完成以后,可以需要的格式导出。这里以导出为【Excel】为例。

 

 

数据示例:

 

 

1.3 【采集模板】是否收费

【采集模板】大部分是免费的,少部分是收费的。【采集模板】是否收费在【模板详情页】有详细说明,请仔细阅读。如有疑问请咨询客服。

 

 

 

2、使用【智能识别】

【智能识别】,只需输入网址,自动智能识别网页数据。支持自动识别列表型网页数据、滚动和翻页。我们来看一个智能识别的示例。

 

示例网址:https://mall.ebaiyin.com/category_3.shtml

 

Step1:在首页输入框中,输入目标网址,点击【开始采集】。八爪鱼自动打开网页并开始智能识别。

 

 

给它一点时间,等待智能识别完成。

 

 

特别说明:

a. 打开网页后,默认开启智能识别。识别过程中,随时可【取消识别】或【不再智能识别】

【取消识别】:立即取消本次智能识别,可点击【自动识别网页】再次启动。

 

 

【不再智能识别】:关闭自动智能识别,点击【自动识别网页】手动开启。也可在全局设置中,再次默认开启【智能识别】。

 

Step2:智能识别成功,一个网页可能有多组数据,八爪鱼会将所有数据识别出来,然后智能推荐最常用的那组。如果推荐的不是想要的,可自行【切换识别结果】。

 

Step3:同时,可自动识别出网页的滚动和翻页。此示例网址,无需滚动,只需翻页,故只识别并勾选【翻页并采集多页数据】。

 


 

Step4:自动识别完成后,点击【生成采集设置】,可自动生成相应的采集流程,方便用户编辑修改。

 

 

Step5:然后,点击左上角的【采集】,选择【启动本地采集】,八爪鱼就会开始全自动采集数据。

 

 

Step6:采集完成后,以所需的方式导出数据即可。

 

 

注意,在Step4后,页面分为 网页显示当前页面数据预览 和 流程图 三大区块。以下分享3个区块的操作技巧。

鼠标移到3大区块之间,出现  按钮时,可通过拖拉改变区块的范围大小,便于配置规则。

 

 

网页显示


a. 
点击智能提示框中的  按钮 ,可将【操作提示框】隐藏起来。点击  按钮 ,将智能提示框调出。

 

 

 

当前页面数据预览

b. 鼠标移动到  按钮上,并拖住左右移动,可快速调整字段顺序。
c. 点击  按钮,可修改字段名称。
d. 选中【流程图】中的某个步骤,按【Delete】键可快速将其删除。也可点击   按钮,对字段进行更多操作:删除、复制、格式化等。
e. 点击  按钮,可快速添加字段:当前采集时间、当前网页信息、从网页中添加字段等。
f. 点击 按钮,可将「当前页面数据预览」隐藏起来,再次点击则固定显示在页面上。
g. 选中字段,网页同步高亮显示,方便找到字段在网页中的位置。

 



流程图

 

h. 鼠标移动到步骤上,可查看步骤详情。
i. 点击  按钮,进入步骤高级选项设置页面。
j. 点击  按钮,可对当前步骤进行更多操作:复制、粘贴、删除等。
k. 将鼠标移动到流程中的 位置,会出现  按钮。点击 按钮,可快速添加流程步骤。
l. 点击 按钮,可将流程图隐藏起来,再次点击则固定显示在页面上。

m. 鼠标移动到【流程图】展示区时,按住【Ctrl】键同时滚动鼠标,可放大/缩小流程图。

 

n. 点击「全部字段」,可显示当前任务中的全部字段。选中某个字段,网页相应位置、数据预览中都会高亮显示,可用于检查字段是否有遗漏,命名是否有误等。

 

 

值得注意的是,目前自动识别,仅支持识别列表型网页、滚动和翻页,如果列表型网页识别失败,请联系客服反馈。如果不是列表型网页,或者有更高级的采集需求,请使用【自定义配置】,自行配置采集任务。

 

3、使用【自定义配置】

【自定义配置】,即针对目标网站,自行配置【采集任务】采集数据。需要掌握八爪鱼的基本操作。(类似不用PPT模板,自己动手写一份PPT,需要掌握PPT的基本使用方法:文本框怎么放,动画效果怎么添加等。)

 

【采集任务】,也叫采集规则,采集流程,是从特定网页上抓取数据的指令。每个网站的页面布局是不同的,因此【采集任务】不能通用。一般情况下,一个网站需要配置一个【采集任务】。举个例子,京东商品采集和淘宝商品采集,需要配置2个不同的采集任务。下图中就是一个配置好的【采集任务】。

 

 

新手如何从0开始,用【自定义采集】配置采集任务并抓取到数据?是本新手入门系列课的重点,第3-9课会详细讲解。

 

 

二 界面介绍

 

上文中,我们认识了首页【输入框】和【热门模板采集】怎么用。下面将详细介绍首页左侧边栏。可点击   按钮,隐藏左侧边栏。再次点击,则可展开。

 

 

 

1 【+ 新建】

新建【模板任务】、【自定义配置任务】、任务组、导入任务的1个快捷入口。

 

 

2【我的任务】

通过【模板采集】、【智能识别】、【自定义配置】创建并保存的任务,都会放在【我的任务】中。在【我的任务】界面,可以对任务进行多种操作。

 

2.1 进行任务二次编辑(a)、多次启动(b)、按任务名搜索(c)、按条件筛选(d)。

 

 

2.2 任务选中状态下,可进行删除、导出任务、移动到分组(包含移动到新建任务组)等操作。

通过导出任务,可与别人分享【智能识别任务】和【自定义任务】。通过【模板采集】创建的任务只可使用,不可导出。

 

 

2.3 如果任务启动采集并获取到数据,可查看此任务的历史数据。

 

 

2.4 任务可按最近编辑时间排序(便于查找最近编辑任务),也可按任务组排序(便于分组管理)。

最近编辑时间排序:

 

 

按任务组排序:

鼠标移动到任务组后的空白区域,还可进行任务组重命名、删除、设置定时、设为默认任务组等操作。

 

3 【快速筛选】

查看云采集任务运行状态的快捷入口。

 

4【最近编辑】

快速查找最近编辑的任务。

 

5【团队协作】

提供团队协作平台,可统一管理团队成员的任务(查看/启动/复制)、数据(查看/导出/下载)、资源(云节点/代理IP/验证码)等,促进团队协作,提升采集效率。

 

6 【数据定制】

八爪鱼提供规则定制、数据定制等多项定制服务。如果不想自己采数据,可联系客服进行专业定制。

 

7【人工客服】

使用软件过程中有任何问题,都可通过【人工客服】联系我们。

 

 

8 【左侧边栏底部】  

a 设置:可进行任务组管理。添加、修改、删除、设为默认等。

b 工具箱:放置八爪鱼常用小工具。

c 教程与帮助:提供详细的教程。

d 关于我们:展示软件版本号与说明。

 

 

 

作者:Aisling

编辑:Aisling