课程导览
在 新手指引 里,我们简单讲了数据采集的2种模式:【模板采集】和【自定义配置采集】。【模板采集】之前已经讲过,点击学习 【自定义配置采集】稍微复杂一点,我们将用1个系列的6节课来学习。在这6节课中,我们将介绍使用八爪鱼自行配置采集流程,进行网页数据采集的基础知识。学完这6节课,能够轻松采集到90%的网页数据。 第1课:自定义采集(含智能识别)本课 第2课:列表采集 第3课:列表进入详情页采集 第4课:表格采集 第5课:登录验证 第6课:采集原理/逻辑 完成全部6节课需要30-60分钟。课程中遇到任何问题,都可通过企业微信群、在线客服等多种渠道联系我们。 本课,我们来看自定义配置采集数据基本介绍。一、【自定义配置采集数据】
【自定义配置采集】有2种方式:使用【智能识别】和自定义配置采集流程。1、使用【智能识别】
输入网址后,自动智能识别网页数据。支持识别列表型网页数据、滚动和翻页。我们来看一个智能识别的示例。 示例网址:https://mall.ebaiyin.com/category_3.shtml Step1:在首页输入框中,输入目标网址,点击【开始采集】。八爪鱼自动打开网页并开始智能识别。
给它一点时间,等待智能识别完成。
特别说明:
a. 打开网页后,默认开启智能识别。识别过程中,随时可【取消识别】或【不再智能识别】
【取消识别】:立即取消本次智能识别,可点击【自动识别网页】再次启动。

Step3:同时,可自动识别出网页的滚动和翻页。此示例网址,无需滚动,只需翻页,故只识别并勾选【翻页采集】。
Step4:自动识别完成后,点击【生成采集设置】,可自动生成相应的采集流程,方便大家在这个基础上编辑修改。



2、自定义配置采集流程
什么是采集流程?采集流程(或叫采集任务,采集规则),是从特定网页上抓取数据的指令。每个网站的页面布局是不同的,因此采集流程不能通用。一般情况下,一个网站需要配置一个采集流程。 举个例子,京东商品采集和淘宝商品采集,需要配置2个不同的采集流程。下图中就是一个配置好的采集流程。
二、相关技巧介绍
在上述【智能识别】示例的Step4后,页面分为 网页显示、当前页面数据预览 和 流程图 三大区块。自己配置采集流程,界面也是这三大区块。以下分享3个区块的操作技巧。 首先,鼠标移到3大区块之间,出现
1、网页显示
a. 点击智能提示框中的
按钮 ,将智能提示框调出。
2、当前页面数据预览
b. 鼠标移动到c. 点击
d. 选中【流程图】中的某个步骤,按【Delete】键可快速将其删除。也可点击
e. 点击
f. 点击
g. 选中字段,网页同步高亮显示,方便找到字段在网页中的位置。

3、流程图
h. 鼠标移动到步骤上,该步骤颜色变深。i. 点击每个步骤框,进入步骤基础、高级选项设置页面。
j. 点击
k. 将鼠标移动到流程中的
l. 点击
m. 鼠标移动到【流程图】展示区时,按住【Ctrl】键同时滚动鼠标,可放大/缩小流程图。


