采集场景
采集某个微博博主主页的博文数据,实例地址https://weibo.com/u/3261134763
https://weibo.com/2656274875?refer_flag=1001030103_
采集字段
粉丝数、关注数、全部微博数、发布时间、博文内容、分享数、评论数、点赞数
采集结果
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。
教程说明
本篇更新时间:2023/03/28 八爪鱼版本:V8.6
如因网页改版导致网址或步骤无效,无法收集到目标数据,请联系官方客服,我们会及时处理。
采集步骤
步骤一:创建循环网页
步骤二、设置cookie登录
步骤三、提取微博字段
步骤四、创建【循环列表】,提取博文列表数据
步骤五、创建循环滚动
步骤六、启动采集
下面为具体步骤:
步骤一、创建循环网页
在首页选择【新建】,然后点击【自定义任务】-输入所需采集的网址后点击【保存设置】
步骤二、设置cookie登录
点击右上角的【浏览模式】后
1、点击立即登录。
2、根据提示用手机app端扫码登录。
3、关闭浏览模式设置cookie登录
步骤三、提取微博字段
选中网页中的目标字段,在操作提示点击【采集该元素的文本】,依次设置获取所需的博主字段数据。
步骤四、创建【循环列表】,提取博文列表数据
1.创建循环列表提取博文列表数据
1)选中一整个博文列表
2)再选中另一个博文列表
3)选中全部相似组
4)获取元素中的数据内容
2.编辑字段
删除不需要的字段、修改字段名
3.修改xpath
修改字段的xpath
发布时间://div[@class="woo-box-item-flex head_main_3DRDm"]/div/div[2]/a
博文链接://div[@class="woo-box-item-flex head_main_3DRDm"]/div/div[2]/a
博文正文://div[@class="wbpro-feed-content"]/div[1]
步骤五、创建循环滚动
因为微博博主网页结构的原因:网页需要往下滚动,同时不管滚动多少次都只能定位几条数据。所以这里需要设置边滚动边采集,同时勾选上【滚动时循环列表不自动去重】。
微博特殊网页结构问题会导致采集会有大量重复数据,这个属于正常现象,采集完成后,可以选择导出去重后的数据。
1.添加循环框,选择循环的方式为循环滚动;
2.设置滚动方式-向下滚动一屏;
3.勾选上【滚动时循环列表不自动去重】;
4.把【循环列表-提取列表数据】整个拖拽放到【循环】里面进行内嵌套,如动图所示。
步骤六、启动采集
点击【保存】-【采集】,选择本地采集或者云采集,等待采集完成。