采集场景

在微博主页(https://weibo.com/)登录后,打开微博博文链接,采集博文链接的评论数据。实例地址:https://weibo.com/1977661791/I7PgktlCh 。

 

 

采集领域

博主用户名、发布时间、博文、分享数、评论数、点赞数、评论、评论用户名、评论时间。

 

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。

 

 

教程说明

本篇更新时间:2020/05/18 八爪鱼版本:V8.1.12

如因网页改版导致网址或步骤无效,无法收集到目标数据,请联系官方客服,我们会及时处理。

 

采集步骤

步骤一:打开网页

步骤二、使用账号密码登录微博

步骤三、创建【循环-打开网页】,示范打开多个博文网址

步骤四、设置滚动

步骤五、提取微博字段步骤

步骤六、创建循环翻页,以采集多页评论

步骤七、创建【循环点击】,展开评论下的回复

步骤八、创建【循环列表】,提取评论列表数据

九步、启动采集

 

下面为具体步骤:

 

步骤一、打开网页

 

在首页【输入框】中,输入微博主页网址 https://weibo.com/,点击【开始采集】,八爪鱼自动打开网址。

 

 

 

特别说明:

一种。打开网页后,如果开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后启动直接采集数据。详情点击查看 【自动识别】

 

步骤二、设置登录微博

 

要采集微博评论数据,首先需要登录。如果没有登录,采集过程中容易跳出提示,影响正常采集。

在八爪鱼中的登录步骤:

 

1、点击立即登录。

2、根据提示用手机app端扫码登录

等待一会后,成功登陆微博。

 

 

步骤三创建【循环-打开网页】,示范打开多个博文网址

 

创建【循环-打开网页】,示范打开多个博文网址,实现自动采集多个博文网址下的评论。

 

在【点击元素】步骤后,添加一个【循环】。

进入【循环】设置页面。选择循环方式为【网址列表】,点击  按钮,将我们准备好网址(同时输入多个网址,一行一个)后保存。 


然后添加【打开网页】步骤,勾选【使用当前循环里的网址作为导航网址】

 

 

步骤四设置滚动

 

展开滚动页面3次,会出现【查看更多】按钮,点击此按钮可以查看更多评论。在八爪鱼中也需要设置滚动。

【打开】设置页面,点开【页面加载后】,设置【页面加载后滚动页面】,滚动方式为【滚动到底部】,【滚动滚动】为3次,【每次间隔】2秒并保存。

 

 

特别说明:

一种。设置中的滚动播放和时间间隔,请根据采集需求和教程加载情况,并非一成不变,具体请点击查看网页滚动加载数据的

 

步骤五、提取微博字段

 

选中网页中的目标字段,在操作提示点击【采集该元素的文本】。

所有文本类的字段都可以这样提取,示例中提取了 用户名、发布时间、博文详情、评论数、点赞数。

 

 

步骤六、创建循环翻页,以采集多页评论

 

1、创建循环翻页

找到并点击的【查看更多】按钮,操作提示上点击【循环点击单个元素】,创建【翻页】。

 

 

特别说明:

一种。创建【循环翻页】,之后采集数据时八爪鱼会自动点击【查看更多】按钮翻页,以加载更多微博评论。

 

2、设置翻页次数

查看页面通过【查看更多】进行翻页,需要设置一个合适的翻页次数。

进入【循环翻页】设置页面,点开【退出循环设置】,勾选【循环执行次数等于】10次。

 

 

特别说明:

一种。为什么通过【查看更多】进行翻页的网页,是否需要设置一个合适的展示翻页次数?通过更多次数的【查看更多】翻页后,页面上出很多的评论列表。页面,采集的时候被定为到了。如果同时定位的列表过多,速度会慢,影响数据的采集次数。一个合理的翻页次数,同时可以控制到的列表,保障数据正常采集。

 

步骤七、创建【循环点击】,展开评论下的回复

 

微博的评论分为主评论和其回复。示例中,我们点击【共X条回复】展开评论下的回复。

如果主评论下的共回复过多,点击需要多次回复主条回复主】,不能全部展开。善良中只考虑点击1【次共条回复主】的情况。

 

1、创建【循环点击】

①在网页中选中第一个【共X条回复】按钮

②在操作提示触发,点击【选中全部】

③ 继续选择【循环点击链接】

 

2、调整流程结构

我们需要的采集逻辑为:先点击【查看更多】进行翻页→点击【共X条回复】展开主评论下的回复。

但自动生成的采集流程不是这样的,需要手动调整:点击【循环列表-点击1】整个步骤,将元素拖入【循环翻页】后。

 

 

特别说明:

一种。一步步移动,可根据需要调整每个步骤的位置。

 

3、修改【循环点击】XPath

一条博文下,【X回复】的个数是共条的。默认的【循环点击】XPath,无法定位到每一个共X条】,需手动修改。

进入【循环列表】设置页面,选择【循环方式】为【不固定元素列表】,修改XPath为:

特别说明:

a.这里需要一定的XPath知识。 点击查看XPath学习与实例教程  

 

步骤八、创建【循环列表】,提取评论列表数据

 

1、建立【循环列表】

 

通过以下连续4步,采集所有评论列表数据:

1、选中页面上1个评论列表(注意一定要选中整个列表,包括所有需要的信息)

2、在黄色操作提示区域,点击【选中子元素】

3、点击【选择全部】

4、点击【采集数据】,然后手动调整:点击【循环列表1-提取列表数据】整个步骤,将元素拖入【循环点击1】后。

 

 

特别说明:

一种。经过以上连续4步,【循环-提取数据】创建完成。【循环】中的项,对应页面上所有评论列表,【提取数据】中的字段,每个评论列表中的字段。采集以后,八爪鱼会随着循环中的详细展开列表中的内容。 

为何通过以上4步,可建立【循环-提取数据】详情点击?看 列表数据采集教程 

 

2、编辑字段

进入【提取数据】设置页面,可删除多余内容,修改字段名,移动字段顺序等。

 

 

3、增加【主评论】字段

以上操作是采集的评论回复。增加一个【主评论】字段,将主评论与评论数据一起来。

进入【提取列表数据】,点击提取主评论。然后修改主评论的xpath,勾选【相对于当前循环的XPath】,输入Xpath:/preceding-sibling::div[@class="WB_text"][1 ] ,然后保存。

修改名字【主评论】。

点击【应用】保存以上所有设置。

 

 

 

九步、启动采集

 

1、【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

 

 

特别说明:

a.【本地采集】使用是电脑电脑自己进行使用采集,【云采集】八爪鱼的云服务器采集,点击查看本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例:

 

 

作者:堂堂

编辑:艾斯林