【今日头条】首页新闻采集

采集场景

今日头条是重要的新闻资讯网站，首页（https://www.toutiao.com/）默认展示最新的新闻列表，点击新闻标题，可进入新闻详情页，查看每条新闻的详情页数据。

采集字段

标题、来源、时间、正文、图片url等字段。

鼠标放到图片上，右键，选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

采集结果

采集结果可导出为Excel，CSV，HTML，数据库等多种格式。导出为Excel示例：

教程说明

本篇更新时间：2022/6/18 八爪鱼版本：V8.5.2

如果因网页改版造成网址或步骤无效，无法收集到目标数据，请联系官方客服，我们将及时修正。

采集步骤

步骤一：打开网页

步骤二、设置页面滚动

步骤三、创建【循环点击】，进入每个新闻详情页

步骤四、创建【判断条件】步骤，并设置分支条件

步骤五、提取详情页中的文本字段

步骤六、启动采集

以下为具体步骤：

步骤一、打开网页

在首页【输入框】中输入目标网址 https://www.toutiao.com/，点击【开始采集】，八爪鱼自动打开网页。

特别说明：

a. 打开网页后，如果开始开始【自动识别】，请等待自动识别完成。八爪鱼支持自动识别网页上的列表，滚动和翻页，识别成功后直接启动采集并获取数据。如果【自动识别】的结果不是我们需要的，可点击【取消】关闭智能识别，自行配置采集流程。详情点击查看【自动识别】

步骤二、设置页面滚动

打开头条首页后，向下滚动页面加载出更多新闻列表，在八爪鱼中也需进行滚动设置。

进入【打开网页】设置页面，点开【高级设置】，设置勾选【页面滚动】，滚动方式为【向下滚动一屏】，【滚动次数】为10次，【每次间隔】1秒并点击应用。

特别说明：

a. 设置中的滚动次数和时间间隔，请根据采集需求和网页加载情况进行设置，并非是一成不变的，具体请点击查看处理滚动加载数据的网页教程

步骤三、创建【循环点击】，进入每个新闻详情页

1、创建【循环翻页】（这里的是循环列表）

① 选中页面上1条新闻标题

② 在操作提示框中，点击【循环点击每个链接】，进入第一条新闻的详情页

特别说明：

a. 经过以上连续3步，【循环点击】创建完成。【循环】中的项，对应着页面上所有新闻链接。启动采集后，八爪鱼就会自动依次点击每个链接，进入其详情页。

b. 为何通过以上3步，可建立【循环点击】？详情点击查看采集点击多个链接后的详情页数据教程。

2、修改【循环点击】XPath

默认生成的【循环翻页】XPath，无法精准定位到每个新闻链接，需手动修改。

进入【循环翻页】设置页面，选择【循环方式】为【不固定元素列表】，修改XPath为：//div[@class="feed-card-article-l"]/a ，然后点击【应用】保存。

特别说明：

a. XPath是什么？怎么写？需要系统学习XPath知识，点击查看 XPath学习与实例教程。

步骤四、创建【判断条件】步骤，并设置分支条件

今日头条的新闻详情页有多种结构，部分文章是头条本身平台的，部分文章是其他平台直接接入的。

针对这种情况，在八爪鱼中需使用【判断条件】，分开采集。满足条件1，走条件1分支；满足条件2，走条件2分支；以上条件都不满足，走最右侧分支。

以下为具体操作步骤。

1、创建【判断条件】步骤

在【点击元素】后，增加一个【判断条件】。

2、设置【分支2】条件

当前详情页默认的是【今日头条】源的新闻，页面中有【今日头条】字样，可将此设置为条件。

在流程图中选中【分支2】，在网页中选中【今日头条】，然后在操作提示框中点击【设置为分支判断条件】。

进入【分支2】设置按钮，调整条件为【当前页面包含元素】。

3、设置【分支3】条件

点击【循环列表】的按钮，选择一条其他源的新闻（示例中选择的是光明网的），再点击【点击元素】，进入此条新闻的详情页。

在流程图中选中【分支3】，在网页中选中【环球网】，然后在操作提示框中点击【设置为分支判断条件】。

进入【分支3】设置按钮，调整条件为【当前页面包含元素】。

4、设置【分支4】条件

今日头条的新闻，走最左的分支2；光明网的新闻，走分支3；其他源的新闻，则走最右分支。因此，我们还需要添加一个分支，不设任何条件。

点击【分支3】右侧的按钮，增加一个【分支4】，【分支4】的执行条件为：不判断，总是执行该分支。

步骤五、提取详情页中的文本字段

对于不同的详情页结构，所有的文本字段都需单独提取一遍。

1、提取【分支2】文本

点击【循环列表】——循环翻页的按钮，选择一条今日头条的新闻，再点击【点击元素】，进入此条新闻的详情页。

选中页面中的文本，然后在操作提示框中，点击【采集该元素文本】。

文本类字段都可以按照这样的方式提取。示例中我们提取了标题、来源、时间、正文。

2、提取【分支3】文本

点击【循环列表】的按钮，选择一条其他源的新闻（示例中选择的是光明网的），再点击【点击元素】，进入此条新闻的详情页。

用同样的方法，在当前页面中提取字段，此处不做过多演示。

特别说明：

a. 文本、图片、视频、源码是不同的数据形式，在操作提示框选择提取方式时稍有不同。文本一般为【采集该元素文本】，图片一般为【采集该图片地址】，更多提取方式请点击查看不同数据类型（文本、图片、链接、源码等）的抓取方式教程

3、编辑字段

使用判断条件时，有一个需要注意的地方：各分支中所有字段的个数和字段名需保持一致。

按照这样的准侧，分别进入【分支2】和【分支3】中的【提取数据】设置页面，编辑字段名。

步骤六、启动采集

1、单击保存后进行本地采集。启动后八爪鱼开始自动采集数据。

2、采集完成后，选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。示例数据：

作者：tangtang

编辑：Aisling

最近修改: 2023-10-30