一、什么是【边滚动边采集数据】
有很多网站,需要向下滚动页面,才能加载出新数据,像 今日头条首页、百度图片搜索、新浪微博首页 等页面都是这种情况。
在采集这类网页数据时,相对应的在八爪鱼 https://etax.shandong.chinatax.gov.cn/dzswj/zdsswfsxajgbl.jsp https://etax.shandong.chinatax.gov.cn/dzswj/zdsswfsxajgbl.jsp中也需设置【页面滚动】。
八爪鱼V8.2.0之前的版本,需按照设置的滚动次数,将页面全部滚动完成之后,才会开始采集数据。
例:设置滚动20次,则需等页面滚动20次后,一次性采集前20次滚动后加载的全部数据。
详情请看教程:滚动加载数据采集方法
V8.2.0版本新增【边滚动边采集数据】功能,可以边滚动页面边采集数据。
例:设置滚动20次,则滚动1次后,采集第1次滚动后加载的数据,继续滚动第2次,采集第2次滚动后加载的数据.......直至滚动20次,采集第20次滚动后加载的数据。
二、【边滚动边采集数据】的优点
与将页面全部滚动完成之后,才会开始采集数据相比,【边滚动边采集】极大地提高了滚动采集数据的稳定性,避免滚动多次却一条数据也采集不到的情况。
三、【边滚动边采集数据】如何设置?
使用智能识别和自行配置的采集规则,都能实现【边滚动边采集】,具体设置方法如下。
1、使用智能识别实现【边滚动边采集】
示例网址:新闻中心-腾讯网 (qq.com)
Step1:在首页输入框中,输入目标网址,点击【开始采集】,八爪鱼自动打开网页。
打开网页后,选择【智能识别网页】,并给它一点时间,等待智能识别完成。
智能识别结束后,可以看到它自动识别了页面的滚动和列表数据,选择生成采集设置,由于我们已经识别到滚动网页,就不需要继续点击【滚动加载】
Step2:点开【滚动网页】流程,选择滚动方式【滚动到底部】,为了方便演示【循环次数】设置为5次,间隔时间1秒,点击【应用】
注意:实际采集过程中,滚动次数和间隔时间可根据实际情况进行设置。
Step3:点击右上角【采集】,选择【普通采集】,打开采集页面,点击【显示网页】
观察采集情况:八爪鱼滚动1次后,采集第1次滚动后加载的数据,继续滚动第2次,采集第2次滚动后加载的数据。
因为我们只设置了滚动5次,所以采集第5次滚动后加载的数据,退出采集流程。
最后导出数据即可.