菜单

【微博】搜索关键词采集

标签：微博

采集场景

在微博主页（https://weibo.com/）登录后，输入关键词搜索，采集得到的搜索结果列表数据。支持按【高级搜索】中设置的条件进搜索。

采集字段

博主用户名、发布时间、博文内容、分享数、评论数、点赞数、评论、评论用户名、评论时间。

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例：

教程说明

本篇更新时间：2023/03/30 八爪鱼版本：V8.6.0

如果因网页改版造成网址或步骤无效，无法收集到目标数据，请联系官方客服，我们将及时修正。

采集步骤

步骤一：打开网页

步骤二、微博登录

步骤三、在【高级搜索】中选择搜索条件

步骤四、使用自动识别，自动识别列表页和翻页

步骤五、编辑字段步骤

步骤六、优化字段

步骤七、采集多个关键词的搜索结果数据

步骤八、启动采集

以下为具体步骤：

步骤一、打开网页

在首页搜索框输入微博首页网址 https://weibo.com/，然后点【开始采集】，八爪鱼自动打开网页。

特别说明：

a. 打开网页后，如果开始【自动识别】，请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页，识别成功后直接启动采集即可获取数据。详情点击查看【自动识别】教程

步骤二、微博登录

要采集博文列表数据，首先需要登录。如果没有登录，只能采集第一页的博文。

在八爪鱼中的登录步骤：

1、打开浏览器模式

点击按钮，打开浏览器模式。在浏览器模式中，点击页面的登录按钮，打开手机微博app扫码登录。

2、使用Cookie登录微博

进入【打开网页】设置界面，勾选【使用指定的Cookie】，点击【获取当前页面Cookie】并保存。

这样就获取到了登录后的Cookie，启动时直接以登录状态打开网页。

特别说明：

a. 什么是浏览器模式？在浏览器模式下，我们可以像在浏览器中一样点击操作网页，不会生成流程步骤。如需编辑流程步骤，需关闭浏览器模式。关闭状态：；打开状态：

b. Cookie是什么？通俗的说，Cookie是一些存储在用户电脑上的小文件，用来保存一些站点的用户数据，作用是让浏览器为用户定制内容。例如：用户第一次访问某网站，输入了账号密码登录。浏览器会问你是否需要【记住账号密码】。选择【是】以后，浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站，就无需再次输入账号密码。详情点击查看处理需要登录的网页（含登录时有验证码）

c. 怎么判断是否获取到Cookie？获取Cookie后会变成，点击，可查看具体的Cookie内容。

步骤三、在【高级搜索】中选择搜索条件

在八爪鱼中有2种方式实现：

① 在八爪鱼中做一遍流程：输入关键词 → 点击【高级搜索】→ 在【高级搜索】中选择条件 → 点击【搜索微博】，获得搜索结果。

② 在网页中完成输入关键词 → 点击【高级搜索】→ 在【高级搜索】中选择条件 → 点击【搜索微博】，获得一条带有搜索关键词和筛选条件的网址，将这条网址直接复制进八爪鱼中去进行采集。

第2种方式更快更稳，示例中选择第2种方式。

1、获得带有搜索关键词和筛选条件的网址

先在浏览器中测试一下。打开微博首页，输入关键词【三体】，在【高级搜索】中选择条件：【原创】【2023-03-01 00时至 2023-03-30 00时】，得到网址：https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1&timescope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g。

特别说明：

a. 在【高级搜索】中选择什么条件，在得到的网址中就有一个对应参数，请注意观察筛选条件跟网址参数的对应关系，选择自己需要的。

2、将1中的网址，输入进八爪鱼中

在【打开网页】后，增加一个步骤【打开网页1】。

双击进入【打开网页1】设置页面，输入网址 https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1&timescope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g ，然后保存，八爪鱼自动打开这个网页。

步骤四、使用自动识别，自动识别列表页和翻页

1、使用自动识别，自动识别列表和翻页

网页打开后，点击【自动识别网页内容】，等待一段时间，成功识别了文章列表中的数据和翻页。

点击【生成采集设置】，将自动识别出的列表数据和翻页，生成为采集流程，方便我们使用和修改。

特别说明：

a. 本文使用【自动识别】，自动识别网页上的列表、滚动和翻页。识别成功后会生成采集规则，再对采集规则调整，以采集目标数据。如果【自动识别】的结果与以上图片不同，可点击【取消识别】自行配置采集流程或联系客服反馈。详情点击查看【自动识别】教程

2、修改【循环列表1】和【循环翻页】XPath

自动识别生成【循环列表】和【循环翻页】存在不通用的情况，需要手动修改。

进入【循环翻页】设置页面，修改XPath为：//a[contains(text(),'下一页')] ，然后点击【应用】保存。

进入【循环列表1】设置页面，修改XPath为：//div[@class="card-wrap" and @mid] ，然后点击【应用】保存。

特别说明：

a. 如何写一条精准的XPath？这里需要一定的XPath知识，点击查看 XPath学习与实例教程。

步骤五、编辑字段

在【当前页面数据预览】面板中，可删除多余字段，修改字段名，移动字段顺序等。

步骤六、优化字段

1、改【博文内容】字段XPath

【博文内容】字段默认的XPath，无法精准定位到展开后的全部博文，需修改XPath。

点击【提取列表数据】进入对应的数据预览界面，点击【博文内容】字段右上方的 ...按钮，选择【修改元素定位】，修改XPath为：//div[@class="content"]//*[@class='txt'][last()] ，然后应用

2、格式化字段

【转发数】、【评论数】和【点赞数】三个字段，默认会带上转发、评论、赞的文本。

如果需要去掉文本，只保留数字，可以通过格式化实现：

点击【转发数】字段右上方的【...】按钮，选择【格式化数据】→ 【添加步骤】→【正则表达式匹配】，输入正则表达式【\d+】后保存。

【评论数】、【点赞数】的格式化数据过程相同。

步骤七、采集多个关键词的搜索结果数据

回顾一下，步骤三中我们输入关键词【三体】，在【高级搜索】中选择条件：【原创】【2023-03-01 00时至 2023-03-30 00时】，得到网址：https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1&timescope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g。

如果保持【高级搜索】的条件不变，需要更换其他关键词进行采集，怎么办？以下为具体步骤：

1、添加【循环-输入网址】步骤

在【打开网页】步骤后，添加一个【循环】。

进入【循环】设置页面。选择循环方式为【网址列表】，点击按钮，进入网址输入页面。

2、根据网址中参数的规律，批量生成网址

选择【批量生成】，输入一个带有关键词和【高级搜索】条件的网址：

https://s.weibo.com/weibo?q=%E4%B8%89%E4%BD%93&scope=ori&suball=1&timescope=custom%3A2023-03-01-0%3A2023-03-30-0&Refer=g。

鼠标选中网址中 q= 和 & 中间的部分并将其删掉（这部分内容是关键词，示例中输入的是【三体】，复制进八爪鱼中时转码了），然后点击【添加参数】→ 选择参数类型为【自定义列表】→ 输入准备好的关键词（可同时输入多个关键词，一行一个即可），然后保存。

点击【保存设置】后，八爪鱼自动打开网页。

3、调整流程

将【打开网页1】拖入到【循环】中，然后【打开网页1】步骤勾选【使用当前循环里的URL作为导航网址】

将整块【循环翻页】拖入到【循环】中。

特别说明：

a. 八爪鱼支持通过网址中参数的规律，自动批量生成网址，详情点击查看根据规律批量生成网址教程

步骤八、启动采集

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

特别说明：

a.【本地采集】是使用自己的电脑进行采集，【云采集】是使用八爪鱼提供的云服务器采集，点击查看本地采集与云采集详解。

2、采集完成后，选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。

数据示例：

说明：
若网站改版导致采集问题，可扫码加群反馈

上一个

【微博】评论采集（只采一级评论）

下一个

【搜狗微信】文章列表和详情页正文采集

最近修改: 2024-10-10

大纲