微博是重要的社交媒体网站,其结构复杂,页面丰富,数据量大。在进行微博数据采集时,有不同的维度。本文总结了微博数据采集常见的场景,并详细讲解采集过程。

大家可以根据需求,选择合适的场景,按照步骤进行操作。

 

一、微博首页-输入关键词搜索相关博文

采集内容:在微博首页,输入关键词搜索,采集搜索后得到的博文列表数据。

采集字段:搜索关键词、微博发布者、博文、发文时间、发布来源、博文网址。

示例网址:https://s.weibo.com/weibo/%25E7%2596%25AB%25E6%2583%2585?topnav=1&wvr=6&b=1

 

 

在八爪鱼中,可以使用智能识别来采集此网页的数据。

Step1:在八爪鱼中登录。

输入网址,八爪鱼自动打开网页。可以看到,微博是需要登录,才能访问所需数据的。学到的方法,使用浏览器模式+Cookie登录。

在浏览器模式下,输入自己的微博账号密码登录:

 

 

登录完成以后,记住cookie。

 

 

Step2:开始使用八爪鱼智能识别。可以看到,八爪鱼自动识别了网页上的数据和翻页。

 

 

Step3:启动采集看一下,按照配置自动采集数据。

 

 

二、微博首页-热搜榜

采集内容:采集微博热搜榜的最新热搜,可采集当前热搜榜单的全热搜词,以及每个热搜词对应的最新博文(20条左右)。

采集字段:热搜排名、热搜词条、热搜词条链接、热搜数、相关博文发博者、博文内容、发布时间、发博客户端、转发数、评论数、点赞数、微博链接、博文内图片地址、采集时间等。

示例网址:https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6

 

 

八爪鱼已经为大家准备好了微博热搜榜的采集模板。由于微博热搜是由官方定义的,而非用户定义的,因此,无需输入参数,直接启动采集。

配合八爪鱼云采集,可实现实时采集微博热搜榜中的内容。

 

 

三、微博-某博主主页的微博列表采集

采集内容:采集某个博主主页的微博列表数据

采集字段:博主ID、博主ID、性别、介绍、关注数、粉丝数、微博数、地区、简介、个性域名、标签、微博发布时间、发布设备、发布内容、转发数、评论数、点赞数、页面网址、微博正文链接、页码等。

示例网址:https://weibo.com/chinadailywebsite

 

 

同样的,八爪鱼准备了以上数据的采集模板【微博-博主主页的博文】,找到它,直接使用即可。

 

 

值得注意的是,这个模板有一个必填参数:网址。这个网址,即博主主页的网址。可同时输入多个网址,一行一个即可。

 

 

网址从哪里来?如果本身就有一批目标网址,那直接输入采集即可。如果没有目标网址,可尝试从以下模板获取:通过搜索关键词,获得相关的博主及其首页链接。

 

 

四、微博评论采集

采集内容:采集某条博文的评论信息

采集字段:博文链接、发博者、发布时间、微博来源、博文内容、转发数、评论数、点赞数、博文图片、博文视频、一级评论者、一级评论内容、一级评论时间、一级评论点赞数、耳机评论者、二级评论内容、二级评论时间。

示例网址:https://weibo.com/1663072851/IyOPD6DLp?filter=hot&root_comment_id=0&type=comment#_rnd1584352441998

 

 

 

这个采集场景,也有做好的模板:

 

 

点击【立即使用】以后,输入参数即可。这里有5个必填参数。

账号、密码很好理解。

博文链接:要采集的那条微博的链接。可直接输入目标博文链接,也可配合场景一、二、三获取微博链接。可同时输入多条博文链接,一行一条即可。

查看更多一级评论:通过点击【查看更多】,展开更多一级评论。有时候篇评论很多,可无限次点击【查看更多】,这里需输入一个最大点击次数,不超过100次。

查看更多二级评论:通过【更多XXX条回复】,展开二级评论。

有时候篇评论很多,可无限次点击【更多XXX条回复】,这里需输入一个最大点击次数,不超过1000次,且需大于一级评论的点击次数。