在做新闻类数据采集的时候,新闻的正文一般都有多个段落。

如果想将正文完全按照原文结构采集下来,并将所有段落放到一个单元格中,在八爪鱼中课用【自定义合并方式】实现。

本文将以网易财经新闻采集为例详细说明。

 

示例网址:http://money.163.com/17/0706/01/COKG34EG002580S6.html

 

先按照需求提取数据。将每一段文本看做一个列表,按照 列表数据采集的方法,创建循环列表。如下图所示:

 

 

启动采集以后发现,得到很多条数据,一段对应一条数据。

 

 

如果想要将多条数据,合并为一条怎么办?

将鼠标移动到流程中的【提取数据】步骤上,点击  按钮,进入设置页面。点击【更多字段操作】,选择【自定义数据合并方式】,最后选择【同一字段多次提取合并为一行】,点击【应用】保存。

 

 

再次启动采集,可以看到,多条数据就被合并为一行了,与原始文章结构一样。