请输入
菜单

字段合并

在做新闻类数据采集的时候,新闻的正文一般都有多个段落。

如果想将正文完全按照原文结构顺序采集下来,并将所有内容合并到一条数据中,可以用文章段落构建循环,然后设置【同一字段多次提取合并为一行】。

 

一、采集数据

本文将以网易财经新闻采集为例详细说明。

示例网址:http://money.163.com/17/0706/01/COKG34EG002580S6.html

 

step1:先按照需求提取数据。将每一段文本看做一个列表,按照 列表数据采集的方法,创建循环列表。如下图所示:

 

 

step2:启动采集以后发现,得到很多条数据,一段对应一条数据。

 

这是因为默认的就是【同一字段多次提取分为多行】。

 

二、设置字段合并

step1:将鼠标移动到下方数据预览中的【字段1】上,点击”…"按钮,可以看到其中一个选项为【同一字段的多行合并】,如果想要将以上多条数据,合并进一行中,我们只需要选择【同一字段多行合并】,点击【应用】保存即可。

 

step2:再次启动采集,可以看到,多条数据就被合并为一行了,与原始文章结构一样。

 

 

 

编辑:FAN 

上一个
自定义抓取方式
下一个
字段格式化
最近修改: 2024-02-01