【搜狗微信】文章列表和详情页正文采集

采集场景

进入搜狗微信首页，（https://weixin.sogou.com/），采集【热门】分类下的文章列表数据。同时，点击每一篇文章的链接，进入文章详情页，采集文章正文和图片。

采集字段

标题、文章链接、封面图、简介、来源、发布时间、正文、图片链接。

鼠标放到图片上，右键，选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例：

教程说明

本篇制作时间：2020/4/24 八爪鱼版本：V8.1.8

如果因网页改版造成网址或步骤无效，无法收集到目标数据，请联系官方客服，我们将及时修正。

采集步骤

步骤一：打开网页并使用【智能识别】

步骤二、调整使用【智能识别】生成的采集流程

步骤三、点击文章链接进入详情页，采集正文和图片

步骤四、启动采集

以下为具体步骤：

步骤一、打开网页并使用【智能识别】

在首页【输入框】中输入目标网址 https://weixin.sogou.com/，点击【开始采集】，八爪鱼自动打开网页。

点击【自动识别网页】，成功识别了文章列表中的数据和翻页。

点击【生成采集设置】，将自动识别出的列表数据和翻页，生成为采集流程，方便我们使用和修改。

特别说明：

a. 本文使用【自动识别】，自动识别网页上的列表、滚动和翻页。识别成功后会生成采集规则，再对采集规则调整，以采集目标数据。如果【自动识别】的结果与以上图片不同，可点击【取消识别】自行配置采集流程或联系客服反馈。详情点击查看【自动识别】教程

步骤二、调整使用【智能识别】生成的采集流程

【智能识别】很好的辅助我们建立了采集规则，我们可以对规则进行调整和优化。

2、编辑字段

在【当前页面数据预览】面板中，可删除多余字段，修改字段名，移动字段顺序等。

步骤三、点击文章链接进入详情页，采集正文和图片

1、点击文章链接进入详情页

进入【循环列表】设置页面，查看当前文章列表（当前列表为蓝色背景，其他项为白色背景）， 同时在网页中找到对应的当前文章列表（以蓝色高亮显示）。

选中当前文章列表中的文章链接，在操作提示框中，点击【点击该链接】，随后八爪鱼自动进入文章详情页。

特别说明：

a. 一定要在当前文章列表中选中文章链接做【点击该链接】，否则【点击元素】步骤无法与【循环】中的文章列表产生联动，会一直重复点击某一条文章链接，进入其文章详情页，无法实现依次点击每个文章链接。

b. 如何找到当前文章列表？【循环】中当前文章列表为蓝色背景，其他项为白色背景。网页中当前文章列表会以蓝色高亮显示，且与【循环】中的当前列表一一对应。

2、采集正文

选中一个段落，在操作提示框中点击最后1个DIV（代表整个正文区块），再点击【采集该元素文本】，正文被采集下来。

特别说明：

a. 为什么要先选一个段落，再选DIV？搜狗微信文章格式复杂，无法很好的选中正文。我们先选中一个段落，然后直接点击最后1个DIV（代表整个正文区块）选中正文。这里涉及一定的XPath知识。点击查看 XPath学习与实例教程

3、建立【循环列表】，提取正文内所有图片地址

一篇文章内可能有多张图片，通过以下几步，采集文章内的所有图片地址：

① 在提取正文步骤后面，点击+号，添加一个循环步骤

② 把循环方式改为【不固定元素列表】，输入XPath：//div[@id='js_content']//img ，点击应用，以采集所有文章中全部的图片地址。

③ 点击页面上第一个图片，在操作提示框中点击【采集图片链接】，就自动生成了采集图片链接的步骤

特别说明：

a. 经过以上连续3步，【循环-提取数据】创建完成。【循环】中的项，对应着页面上所有图片，【提取数据】中的字段，对应着每个图片的图片地址。启动采集以后，八爪鱼就会按照循环中的顺序依次提取每个图片地址。

b. 为何通过以上3步，可建立【循环-提取数据】？点击查看列表数据采集教程。

特别说明：

a. 为什么要修改【循环列表1】的XPath？这是因为默认生成的XPath，无法采集到所有文章的图片地址。我们需要手动写一条XPath，使之定位到所有的图片。这里需要一定的XPath知识。点击查看 XPath学习与实例教程。

b. 默认的是一张图片地址一条数据，如果希望将同一篇文章的图片地址合并在同一条数据中，需进入【提取列表数据1】设置页面，在【自定义数据合并方式】中勾选【同一字段多次提取合并和一行】。

步骤四、启动采集

1、启动本地采集，发现并修正图片地址乱码问题

单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

采集部分数据导出excel发现，图片地址有很多重复乱码，不是真正的图片地址。

特别说明：

a. 【本地采集】是使用自己的电脑进行采集，【云采集】是使用八爪鱼提供的云服务器采集，点击查看本地采集与云采集详解。

这是因为，打开详情页后需要滚动页面，才能采集到真实的图片地址。进入【点击元素】步骤的设置页面，勾选【页面加载后向下滚动】，滚动方式为【向下滚动一屏】，【滚动次数】为20次，【每次间隔】1秒，设置完成后保存。

特别说明：

a. 什么是真实的图片地址？微信文章中的图片，需要滚动页面，让图片在当前屏幕中展示一段时间，才会加载出真实的图片地址，否则就是重复的乱码。设置中的滚动次数和时间间隔，请根据采集需求和网页图片加载情况进行设置，并非是一成不变的，具体请点击查看处理滚动加载数据的网页教程

2、再次启动采集

八爪鱼打开文章详情页后进行相应滚动，采集到真实的图片地址，如下图所示：

3、导出数据

采集完成后，选择合适的导出方式来导出数据。支持导出为Excel，CSV，HTML，数据库等。这里导出为Excel，示例数据：

最近修改: 2023-10-27