安装注册
模板采集
自定义入门
循环
ajax与新标签
XPath
特殊翻页
提取数据
数据导出
云采集
其他功能点
字段合并
2020-03-25
5512
在做新闻类数据采集的时候,新闻的正文一般都有多个段落。
如果想将正文完全按照原文结构顺序采集下来,并将所有内容合并到一条数据中,可以用文章段落构建循环,然后设置【同一字段多次提取合并为一行】。
本文将以网易财经新闻采集为例详细说明。
示例网址:http://money.163.com/17/0706/01/COKG34EG002580S6.html
先按照需求提取数据。将每一段文本看做一个列表,按照 列表数据采集的方法,创建循环列表。如下图所示:
启动采集以后发现,得到很多条数据,一段对应一条数据。
这是因为默认的就是【同一字段多次提取分为多行】。
将鼠标移动到流程中的【提取数据】步骤上,点击 按钮,进入设置页面。点击【更多字段操作】,选择【自定义数据合并方式】,可以看到默认的合并方式为【同一字段多次提取分为多行】。
如果想要将以上多条数据,合并进一行中怎么办?选择【同一字段多次提取合并为一行】,点击【应用】保存即可。
再次启动采集,可以看到,多条数据就被合并为一行了,与原始文章结构一样。