菜单

02 采集单个数据

从本课开始，我们将自己动手，配置一个采集规则。从最简单的单个数据采集开始。

现在有一个京东商品详情页的网页：https://item.jd.com/100007073871.html。网页上有很多字段：文本（标题、价格等）、图片（商品图片）、链接（详情的超链接）

鼠标放到图片上，右键，选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

我们想将上述网页上非结构化的文本、图片、超链接等字段采集下来，保存为excel等结构化的数据，如下图所示：

在八爪鱼中如何操作？以下为具体步骤。

示例网址：https://item.jd.com/100007073871.html

步骤一、创建一个新任务，输入网址

在首页【输入框】中输入目标网址，点击【开始采集】，八爪鱼自动打开网页。

如果自动开始智能识别，可点击【不再自动识别】或【取消识别】。如果已关闭智能识别，可进行接下来的步骤。

也可以点击左侧【+ 新建】，选择【自定义任务】，进入网址输入界面。

特别说明：

b. 如何获得目标网址（也叫url）？输入网址是进行数据数据采集的第1步。因此，一定要确定你要的数据在哪个网页上有，网址是什么，找到网址并将其复制下来。

步骤二、选择要采集的数据

观察网页。网页上有很多字段：文本（标题、价格等）、图片（商品图片）、链接（详情的超链接）。

鼠标移动到想要的字段上，点击将其选中。选中后，会用绿色框框起来。同时，八爪鱼会弹出1个操作提示框。选中的字段不同，操作提示框中的指令也不同：

如果选中的是文本，选择【采集该元素的文本】。

如果选中的是图片，选择【采集该图片地址】。

如果选中的是链接，选择【采集该链接的文本】或【采集该链接地址】。

这是因为面对不同的数据形式，采集方式是不一样的。请注意根据采集需求，选择指令。

步骤三、编辑字段

在软件下方的数据预览中，可查看到我们提取的所有字段，在此我们可以对这些字段进行修改、删除字段名称，移动字段顺序等操作。

数据预览中默认是【横向字段布局】，方便查看所采集到数据。你也可以切换到【纵向字段布局】，方便进行字段的修改，比如批量删除、复制字段，导入、导出字段配置，格式化，修改字段XPath。

【横向字段布局】下，鼠标移到字段名上，可修改字段名称。

鼠标移动到按钮上，可对字段进行更多操作：删除、复制、格式化等。

【横向字段布局】和【纵向字段布局】两种布局方式下，都可以用鼠标按住某个字段，然后拖动它，进行字段顺序的调整。

步骤四、获取数据并导出

现在，我们已经配置好了一个采集任务。接下来是让任务自动运行。

点击【保存并启动】，选择【启动本地采集】，启动后八爪鱼开始全自动采集数据。（【本地采集】是使用自己的电脑进行采集，【云采集】是使用八爪鱼提供的云服务器采集，点击查看详细说明。）

采集完成后，选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。

数据示例：

经过以上操作，我们就将单个页面上的数据采集下来啦！大家对配置任务的过程已经有了一定理解，为后面课程的学习打好了基础！

继续学习吧！

若对教程学习有疑问不明白，或遇到问题，可以扫码加群咨询反馈

上一个

01 自定义采集（含智能识别）

下一个

03 采集列表数据

最近修改: 2024-10-10

大纲