在做新闻类数据采集的时候,新闻的正文一般都有多个段落。

如果想将正文完全按照原文结构顺序采集下来,并将所有内容合并到一条数据中,可以用文章段落构建循环,然后设置【同一字段多次提取合并为一行】。

本文将以网易财经新闻采集为例详细说明。

 

示例网址:http://money.163.com/17/0706/01/COKG34EG002580S6.html

 

先按照需求提取数据。将每一段文本看做一个列表,按照 列表数据采集的方法,创建循环列表。如下图所示:

 

 

启动采集以后发现,得到很多条数据,一段对应一条数据。

 

 

这是因为默认的就是【同一字段多次提取分为多行】。

将鼠标移动到流程中的【提取数据】步骤上,点击  按钮,进入设置页面。点击【更多字段操作】,选择【自定义数据合并方式】,可以看到默认的合并方式为【同一字段多次提取分为多行】。

 

 

如果想要将以上多条数据,合并进一行中怎么办?选择【同一字段多次提取合并为一行】,点击【应用】保存即可。

 

 

再次启动采集,可以看到,多条数据就被合并为一行了,与原始文章结构一样。