菜单

【小红书】话题详情页采集

采集场景

某个热门话题下的笔记，进入详情页面采集具体的笔记内容

示例网址：(网站链接可以在小红书APP中通过分享某个话题获取）

https://www.xiaohongshu.com/page/topics/5be39b446c8206000134d734?fullscreen=true&naviHidden=yes&xhsshare=CopyLink&appuid=60ff6421000000000101c9f1&apptime=1667889058

采集字段

话题关键词、标题、作者主页链接、用户名、点赞数、收藏数、评论数、发布时间、正文内容

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例：

教程说明

本篇制作时间：2024/01/08 八爪鱼版本：V8.6.7

如果因网页改版造成网址或步骤无效，无法收集到目标数据，请联系官方客服，我们将及时修正。

采集步骤

步骤一、打开网页

步骤二、提取数据

步骤三、设置滚动

步骤四、建立【循环-点击元素】，进入每个帖子的详情页

步骤五、提取详情页的数据

步骤六、规则优化

步骤七、启动采集

以下为具体步骤：

步骤一、打开网页

1、打开网页

首页左上角点击【新建】—【自定义任务】。网址输入界面默认的是【手动输入】，将复制好的一批同类网址，粘贴进网址输入框中，并点击【保存网址】，八爪鱼中内置的浏览器会自动打开网页。

同时可以看到，流程中已自动创建【循环-打开网页】步骤。

示例中输入的网址为：

https://www.xiaohongshu.com/page/topics/5be39b446c8206000134d734?fullscreen=true&naviHidden=yes&xhsshare=CopyLink&appuid=60ff6421000000000101c9f1&apptime=1667889058

https://www.xiaohongshu.com/page/topics/62ebaaaccc14c300010e1523?fullscreen=true&naviHidden=yes&xhsshare=WeixinSession&appuid=5a9f2a9211be100a041ef395&apptime=1676546164

特别说明：

a. 手动输入的url数量不得大于1万个，如有超过1万url，请选择【从文件导入】

b. 打开网页后，如果开始开始【自动识别】，请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

c. 【自动识别】适用于自动识别网页上的列表、滚动和翻页，识别成功后直接启动采集即可获取数据。

步骤二、提取数据

1、采集话题关键词

采集当前话题的关键词，该字段是文本型的字段，在网页中选中后，在操作提示框中点击【文本内容】即可。

2、编辑字段

在【当前页面数据预览】面板，修改字段名称为话题。

步骤三、创建循环滚动

1、因为小红书网页结构的原因，网页需要往下滚动才能加载全部的数据，所以需要设置滚动加载，加载出全部数据之后再开始采集

创建步骤如下：

①添加循环框，选择循环的方式为【滚动网页】；

②设置滚动模式，选择【局部】，滚动区域XPath设置为：//body；

设置滚动方式，选择【滚动到底部】；

设置循环次数；勾选上无内容更新时结束采集；间隔时间设置为1秒。

特别说明：

a. 设置中的滚动次数和时间间隔，请根据采集需求和网页加载情况进行设置，并非是一成不变的

b.如果只需要采集部分数据，可以在该步骤设置循环执行次数进行限制。

步骤四、建立【循环-点击元素】

1、建立【循环-点击元素】，进入每个帖子的详情页

通过以下连续4步建立步骤：

① 选中页面上1个帖子（注意一定要选中整个列表）

② 再选中页面上另一个列表，这样页面中全部的帖子都被识别到了

③ 点击【选中全部子元素】

④ 点击【循环点击每个链接】

2、修改循环列表及点击元素的的xpath

为了精准定位到所有的问题链接，需修改一下【循环列表】及【点击元素】的XPath:

循环列表：//div[@id="app"]/div[1]/div[1]/div[2]/DIV[1]/DIV[2]/DIV[3]/DIV[1]/DIV/DIV[1]/DIV/SECTION[contains(@class,"reds-note-card note-card")]

点击元素：/a[1]

特别说明：

a. 为什么要修改相应的xpath?因为网页结构复杂，系统自动生成的xpath不能定位到全部的帖子，这里需要一定的XPath知识。点击查看 XPath学习与实例教程。

步骤五、提取详情页的数据

1.提取数据字段

在当前选中页面中的文本，然后在操作提示框中，点击【文本内容】。文本类字段都可以按照这样的方式提取。示例中我们提取了正文内容，发布时间，标题，点赞，收藏，评论等多个字段。

其中正文字段需要修改字段的xpath用于精确定位数据

正文：//div[@class="note-content"]/div[2]

2.编辑字段

进入【提取数据】设置页面，可删除多余字段，修改字段名，移动字段顺序等

步骤六、规则优化

为【打开循环中的网页】、【点击元素】、【提取列表数据】设置执行前等待1s-3s，然后点击【应用】保存。

特别说明：

a. 执行前等待，即在执行此步骤前等待一段时间，可有效避免因网页未加载完全导致的漏数据

步骤七、启动采集

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

特别说明：

a. 因需要滚动完再采集数据，如滚动次数较大，会出现较长时间才开始采集到数据，还请耐心等待。如只需采集部分数据，可以在滚动页面步骤设置滚动的次数。

2、采集完成后，选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例：

作者：妙卡

编辑：妙卡

最近修改: 2024-01-10