请输入
菜单

【小红书】话题详情页采集

 
采集场景
某个热门话题下的笔记,进入详情页面采集具体的笔记内容
示例网址:(网站链接可以在小红书APP中通过分享某个话题获取)
 
采集字段
话题关键词、标题、作者主页链接、用户名、点赞数、收藏数、评论数、发布时间、正文内容
 
 
采集结果
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:
 
 
教程说明
本篇制作时间:2024/01/08 八爪鱼版本:V8.6.7
如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。
 

采集步骤

步骤一、打开网页
步骤二、提取数据
步骤三、设置滚动
步骤四、建立【循环-点击元素】,进入每个帖子的详情页
步骤五、提取详情页的数据
步骤六、规则优化
步骤七、启动采集
 
 
 
以下为具体步骤:
 

步骤一、打开网页

 
1、打开网页
首页左上角点击【新建】—【自定义任务】。网址输入界面默认的是【手动输入】,将复制好的一批同类网址,粘贴进网址输入框中,并点击【保存网址】,八爪鱼中内置的浏览器会自动打开网页。
同时可以看到,流程中已自动创建【循环-打开网页】步骤。
 
示例中输入的网址为:
https://www.xiaohongshu.com/page/topics/5be39b446c8206000134d734?fullscreen=true&naviHidden=yes&xhsshare=CopyLink&appuid=60ff6421000000000101c9f1&apptime=1667889058
https://www.xiaohongshu.com/page/topics/62ebaaaccc14c300010e1523?fullscreen=true&naviHidden=yes&xhsshare=WeixinSession&appuid=5a9f2a9211be100a041ef395&apptime=1676546164
 
 
特别说明:
a. 手动输入的url数量不得大于1万个,如有超过1万url,请选择【从文件导入】
b. 打开网页后,如果开始开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。
c. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。
 

步骤二、提取数据

 
1、采集话题关键词
采集当前话题的关键词,该字段是文本型的字段,在网页中选中后,在操作提示框中点击【文本内容】即可。
 
 
2、编辑字段
在【当前页面数据预览】面板,修改字段名称为话题。
 
 
 

步骤三、创建循环滚动

 
1、因为小红书网页结构的原因,网页需要往下滚动才能加载全部的数据,所以需要设置滚动加载,加载出全部数据之后再开始采集
创建步骤如下:
①添加循环框,选择循环的方式为【滚动网页】;
②设置滚动模式,选择【局部】,滚动区域XPath设置为://body;
设置滚动方式,选择【滚动到底部】;
设置循环次数;勾选上无内容更新时结束采集;间隔时间设置为1秒。
 
特别说明:
a. 设置中的滚动次数和时间间隔,请根据采集需求和网页加载情况进行设置,并非是一成不变的
b.如果只需要采集部分数据,可以在该步骤设置循环执行次数进行限制。
 
 

步骤四、建立【循环-点击元素】

 
1、建立【循环-点击元素】,进入每个帖子的详情页
通过以下连续4步建立步骤:
① 选中页面上1个帖子(注意一定要选中整个列表)
② 再选中页面上另一个列表,这样页面中全部的帖子都被识别到了
③ 点击【选中全部子元素】
④ 点击【循环点击每个链接】
 
2、修改循环列表及点击元素的的xpath
为了精准定位到所有的问题链接,需修改一下【循环列表】及【点击元素】的XPath:
循环列表 ://div[@id="app"]/div[1]/div[1]/div[2]/DIV[1]/DIV[2]/DIV[3]/DIV[1]/DIV/DIV[1]/DIV/SECTION[contains(@class,"reds-note-card note-card")]
点击元素:/a[1]
 
特别说明:
a. 为什么要修改相应的xpath?因为网页结构复杂,系统自动生成的xpath不能定位到全部的帖子,这里需要一定的XPath知识。点击查看 XPath学习与实例教程 。
 

步骤五、提取详情页的数据

1.提取数据字段
在当前选中页面中的文本,然后在操作提示框中,点击【文本内容】。文本类字段都可以按照这样的方式提取。示例中我们提取了正文内容,发布时间,标题,点赞,收藏,评论等多个字段。
其中正文字段需要修改字段的xpath用于精确定位数据
正文://div[@class="note-content"]/div[2]
2.编辑字段
进入【提取数据】设置页面,可删除多余字段,修改字段名,移动字段顺序等
 

步骤六、规则优化

 
为【打开循环中的网页】、【点击元素】、【提取列表数据】设置执行前等待1s-3s,然后点击【应用】保存。
 
 
特别说明:
a. 执行前等待,即在执行此步骤前等待一段时间,可有效避免因网页未加载完全导致的漏数据
 

步骤七、启动采集

 
1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。
特别说明:
a. 因需要滚动完再采集数据,如滚动次数较大,会出现较长时间才开始采集到数据,还请耐心等待。如只需采集部分数据,可以在滚动页面步骤设置滚动的次数。
 
 
2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例:
 
 
作者:妙卡
编辑:妙卡
最近修改: 2024-01-10