采集场景

在微博主页(https://weibo.com/)登录后,打开博主主页(实例网址:https://weibo.com/tfyiyangqianxi?is_all=1)可查看微博博主主页的博主信息、博文内容等。

 

 

采集字段

博主名、博主介绍、关注数、粉丝数、微博数、发布时间、博文正文、转发数、评论数、点赞数、采集时间和页面网址。 

 

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:

 

 

教程说明

本篇制作时间:2020/05/13   八爪鱼版本:V8.1.12

如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。

 

采集步骤

步骤一:打开网页

步骤二:微博登录

步骤三:设置滚动

步骤四:提取目标数据

步骤五、创建【循环列表】,提取全部博文列表数据

步骤、创建循环翻页,以采集多页数据

步骤、启动采集

 

以下为具体步骤:

 

步骤一、打开网页

在首页【输入框】中,输入微博主页网址 https://weibo.com/,点击【开始采集】,八爪鱼自动打开网址。

 

 

特别说明:

a. 打开网页后,如果开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程

 

步骤二、微博登录

 

要采集微博用户主页数据,首先需要登录。如果没有登录,只能采集第一页用户发布博文。

在八爪鱼中的登录步骤:

 

1、打开浏览器模式

点击  按钮,打开浏览器模式。在浏览器模式中,输入账号密码并登录。

 

 

2、使用Cookie登录微博

在【打开网页1】步骤下加入一个新的【打开网页】,进入【打开网页】设置界面,输入某博主主页网址: https://weibo.com/tfyiyangqianxi?is_all=1勾选【使用指定的Cookie】,点击【获取当前页面Cookie】并保存。

这样就获取到了登录后的Cookie,启动时直接以登录状态打开网页。

 

 

特别说明:

a. 什么是浏览器模式?在浏览器模式下,我们可以像在浏览器中一样点击操作网页,不会生成流程步骤。如需编辑流程步骤,需关闭浏览器模式。关闭状态:  ;打开状态: 

b. Cookie是什么?通俗的说,Cookie是一些存储在用户电脑上的小文件,用来保存一些站点的用户数据,作用是让浏览器为用户定制内容。例如:用户第一次访问某网站,输入了账号密码登录。浏览器会问你是否需要【记住账号密码】。选择【是】以后,浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站,就无需再次输入账号密码。详情点击查看 处理需要登录的网页(含登录时有验证码

c. 怎么判断是否获取到Cookie?获取Cookie后  会变成   ,点击  ,可查看具体的Cookie内容。

 

步骤设置滚动

 

打开用户微博主页后,微博默认只显示一部分博文。向下滚动页面到底部,才会加载出全部博文列表,在八爪鱼中也需设置滚动。

进入【打开网页】设置页面,点开【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【滚动到底部】,【滚动次数】为2次,【每次间隔】2秒 并保存

 

 

特别说明:

a.设置中的滚动次数和时间间隔,请根据采集需求和网页加载情况进行设置,并非是一成不变的,具体请点击查看处理滚动加载数据的网页教程

 

步骤提取目标数据

 

点击 按钮,关闭浏览器模式。

选中页面中的文本,然后在操作提示框中,点击【采集该元素文本】。

文本类字段都可以按照这样的方式提取。示例中我们提取了博主名、博主介绍、关注数、粉丝数、微博数等多个字段。

 

 

特别说明:

a. 文本、图片、视频、源码是不同的数据形式,在操作提示框选择提取方式时稍有不同。文本一般为【采集该元素文本】,图片一般为【采集该图片地址】,更多提取方式请点击查看  不同数据类型(文本、图片、链接、源码等)的抓取方式 教程

 

步骤、创建【循环列表】,提取全部博文列表数据

 

1、建立【循环列表】

① 选中页面上1个博文列表(当无法选中整块列表时,可先选中一块较小区域,然后点击操作提示框中的  ,扩大选区

② 选中第2个博文列表(与①相同的方式)

③ 点击【采集以下元素文本】

整块博文列表作为一个字段提取下来,如需单独提取,请看接下来的步骤。

 

 

特别说明:

a. 经过以上1中的连续3步,【循环列表】创建完成。【循环】中的项,对应着页面上所有博文列表。启动采集以后,八爪鱼就会按照循环中的顺序依次提取每个列表中的字段。 

b. 为何通过以上1中的3步,可建立【循环列表】?详情点击查看 列表数据采集教程 

c. 选中微博列表时,如果无法一次选中一条微博的整个列表,可通过点击 操作提示框右下角的扩大选项按钮   来帮助我们扩大选择的范围。点击的时候,绿色的选中范围会一层一层的扩大。注意观察页面情况,只要绿色框正好完全覆盖第一条微博的所有信息时,就可以停止点击。选中第二条微博列表的时候,同样也可以这样操作。

 

2、提取字段

先找到当前博文列表(点击流程中的【提取列表数据】步骤,当前项在网页上会以红色框框起来),然后:

在网页中选中目标文本,在操作提示框中点击【采集该元素/链接的文本】。文本类的字段都可如此提取,示例中提取了 发布时间、博文正文、转发数、评论数、点赞数 等字段。

 

 

特别说明:

a. 一定要在当前博文果列表中提取字段,否则字段提取无法与【循环列表】产生联动,会重复采集某一条列表中的字段。

b. 如何找到当前项?点击流程中的【提取列表数据】步骤,当前项在网页上会以红色框框起来,如下图所示:

 

步骤、创建循环翻页,以采集多页数据

 

1、建立【循环翻页】

如果只是采集一页数据,可跳过此步骤。

如果需要翻页以采集多页数据:下拉滚动页面,找到并选中网页里的【下一页】按钮,在操作提示上单击【循环点击下一页】,创建【循环翻页】。

 

 

特别说明:

a. 创建【循环翻页】后,八爪鱼会自动点击【下一页】按钮进行翻页,从第1页,第2页......直到最后1页。如果只需采集特定页的数据,可在八爪鱼中设置循环翻页的次数,详情点击查看  翻页以采集多页数据教程

 

2、【点击翻页】处设置向下滚动及Ajax点击

翻页后,微博默认只显示一部分博文。向下滚动页面到底部,才会加载出全部博文列表,同时翻页按钮使用了Ajax技术,在八爪鱼中也需进行相应设置。

进入【点击翻页】设置页面,点开【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【滚动到底部】,【滚动次数】为2次,【每次间隔】2秒 并保存

设置【Ajax超时】时间为5秒。

 

 

特别说明:

a. 使用了Ajax技术的网页,一般不勾选【在新标签中打开】。【Ajax超时】请根据采集需求和网页加载情况进行设置,并非是一成不变的,详情点击查看Ajax教程

b. 设置中的滚动次数和时间间隔,请根据采集需求和网页加载情况进行设置,并非是一成不变的,具体请点击查看处理滚动加载数据的网页教程

 

步骤七、启动采集

 

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

 

 

特别说明:

a.【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例:

 

 

作者:Vee

编辑:Djacky