在使用八爪鱼采集器的过程中,由于网页风控,会出现以下情况:
1.采集一半弹出验证码,手动输入后任务继续,下次又弹出。
2.明明采集频率很低,但还是被封IP。
3.采集时被识别为机器人-限制访问或直接空屏。
这些问题,很可能是因为你选错了采集方式。八爪鱼采集器提供三种本地采集方式:独立浏览器、内置浏览器、本地浏览器。选对方式,采集成功率提升90%。
PS:该模式由采集器10.0版本以上支持。
一、内置浏览器
1、基本概念
内置浏览器是八爪鱼采集器的默认采集模式,它的特点在于:
(1)客户端内置:由客户端启动采集,模拟访问常规浏览器。
(2)后台静默运行:任务可以在后台持续执行。
(3)资源占用低:不需要启动完整浏览器、可以同时运行多个采集任务、对电脑性能要求更低。
(4)故障排查方便:内置浏览器窗口可显示网页内容、同时查看日志,快速定位问题。
2、适用场景
大批量公开数据采集。
反爬较弱的常规页面。
资源有限,需同时运行多任务。
3、 使用介绍
步骤一:确认采集规则任务
请先自定义配置完任务或者配置完模板任务。
特别说明:a. 配置模板任务b.内置浏览器模式是默认采集方式。
步骤二:启动采集
特别说明:a. 模板点击启动:
步骤三:查看采集状态
1.客户端会开两个窗口:一个源窗口,一个采集窗口。

2.采集窗口中有4个标签页,介绍如下:

任务概况:可查看采集开始/结束时间,去重后数量以及资源使用情况(验证码、代理IP)。
数据列表:可以预览采集到的数据。

任务日志:任务流程运行实况记录。

任务历史:该任务的执行记录。

3.点击右上角的”显示网页“可以查看内置浏览器运行采集情况。
特别说明:a. 打开显示网页结合日志是排查问题的关键步骤。具体请参考:本地排错
4.采集运行控制
暂停:可以停止流程采集,用于控制/操作流程间突发验证与排错。 停止:直接终止采集。

步骤四:数据导出
点击停止或者正常采集结束,选择导出方式即可。

二、独立浏览器
1、基本概念
独立浏览器是八爪鱼采集器针对高难度反爬场景推出的解决方案。它的核心优势在于:
(1)真实浏览器环境:网站难以区分是真人还是爬虫。
(2)全程可见可控:打开独立浏览器窗口,采集过程一览无余、发现异常可以随时手动干预、新弹出的窗口会单独显示。
2、适用场景
目标网站需要账号登录。
反爬检测严格(频次、行为分析)。
需要人工确认或干预的流程。
采集过程需要实时监控。
无需配置复杂的登录规则。
适合需要会话保持的采集任务。
可以随时暂停任务手动输入验证码,处理完继续执行,无缝衔接。
3、 使用介绍
步骤一:确认采集规则任务
请先自定义配置完任务或者配置完模板任务。(请参考一、内置浏览器的该步骤)
步骤二:启动采集
特别说明:a. 由于本地采集默认采集方式内置浏览器,所以要在点击采集之后选择独立浏览器采集。
步骤三:查看采集状态
1.客户端会开两个窗口:一个源窗口,一个采集窗口。同时独立浏览器会开一个新窗口用于采集。

2.采集窗口中有依旧有4个标签页,介绍如下:

任务概况:可查看采集开始/结束时间,去重后数量以及资源使用情况(验证码、代理IP)。
数据列表:可以预览采集到的数据。

任务日志:任务流程运行实况记录。

任务历史:该任务的执行记录。

3.由于开启新窗口,则直接在窗口实时显示网页。

特别说明:a. 如果需要排错,建议用客户端日志窗口与新浏览器采集窗口对比排查。
4.采集运行控制
暂停:可以停止流程采集,用于控制/操作流程间突发验证与排错。 停止:直接终止采集。

步骤四:数据导出
点击停止或者正常采集结束,选择导出方式即可。

三、本地浏览器
1、基本概念
本地浏览器是八爪鱼采集器为需要高灵活性与复杂交互场景提供的专业采集模式。它允许您使用电脑上已安装的现有浏览器(如Chrome、Edge等)进行采集,其特点在于:
(1)复用本地环境:直接调用您电脑上的浏览器及登录态,无需在八爪鱼内重复登录。
(2)高度拟人化:完全模拟真实用户的上网行为,浏览器指纹、缓存、Cookies与您日常使用完全一致。
(3)无缝人工干预:在采集过程中,您可以直接在浏览器上手动操作(如滑动验证、点击弹窗、切换账号),操作完点击“继续”即可无缝恢复采集流程。
(4)降低封号风险:由于使用真实浏览器环境,且操作频率受人工节奏控制,极大降低了被目标网站识别为爬虫的风险。
(1)复用本地环境:直接调用您电脑上的浏览器及登录态,无需在八爪鱼内重复登录。
(2)高度拟人化:完全模拟真实用户的上网行为,浏览器指纹、缓存、Cookies与您日常使用完全一致。
(3)无缝人工干预:在采集过程中,您可以直接在浏览器上手动操作(如滑动验证、点击弹窗、切换账号),操作完点击“继续”即可无缝恢复采集流程。
(4)降低封号风险:由于使用真实浏览器环境,且操作频率受人工节奏控制,极大降低了被目标网站识别为爬虫的风险。
2、适用场景
-
需要登录且登录验证机制复杂(如扫码、短信验证码)的网站。
-
反爬策略极其严格,对浏览器指纹和操作行为有深度分析的网站。
-
采集流程包含需要人工判断与操作的复杂交互(如多级菜单点击、地图拖拽)。
-
希望利用本地浏览器已有插件(如翻译插件、代理插件)辅助采集的场景。
-
需要长时间保持登录会话,避免频繁掉线的采集任务
3、 使用介绍
步骤一:确认采集规则任务
请先自定义配置完任务或者配置完模板任务。(请参考一、内置浏览器的该步骤)
特别说明:
a. 由于本地采集默认采集方式为内置浏览器,请在左边的任务栏下找到”工具“中选择“本地浏览器插件”。
a. 由于本地采集默认采集方式为内置浏览器,请在左边的任务栏下找到”工具“中选择“本地浏览器插件”。

b. 首次使用需设置浏览器路径:如果系统未能自动识别,请手动选择您电脑上Chrome、Edge等浏览器的安装路径(.exe文件)。





c. 点击启动后,八爪鱼会自动打开您指定的本地浏览器,并进入目标采集页面

步骤二:启动采集
步骤三:查看采集状态
1.客户端会开两个窗口:一个源窗口,一个采集窗口。同时本地浏览器会开一个新窗口用于采集。
-
客户端会开两个窗口:一个源窗口,一个采集窗口。同时,您指定的本地浏览器(如Chrome)会激活并打开一个新标签页用于展示采集页面。

-
采集窗口中依旧有4个标签页,介绍如下:

-
任务概况:可查看采集开始/结束时间,去重后数量以及资源使用情况(验证码、代理IP)。
-
数据列表:可以预览采集到的数据。

-
任务日志:任务流程运行实况记录。

-
任务历史:该任务的执行记录。

3.由于开启新窗口,则直接在窗口实时显示网页。

4.采集运行控制
暂停:可以停止流程采集,用于控制/操作流程间突发验证与排错。 停止:直接终止采集。

点击停止或者正常采集结束,选择导出方式即可。

四、模式对比与选择
1、模式对比
|
对比维度
|
内置浏览器
|
独立浏览器
|
本地浏览器(新增) |
|---|---|---|---|
|
技术原理
|
基于客户端内置浏览器执行
|
调用本地Chrome/Edge浏览器实时交互
|
直接调用您电脑上已安装的现有浏览器(如Chrome/Edge),复用其环境与登录态
|
|
反爬能力
|
较弱(易被识别为自动化工具)
|
强(本地浏览器特征,真实用户行为)
|
极强(与您日常上网环境完全一致,浏览器指纹、缓存、Cookies均相同)
|
|
适用场景
|
公开数据、低反爬页面
|
需登录、有验证码、反爬强的网站
|
登录验证复杂(扫码/短信)、反爬极严、需人工判断交互的网站
|
|
稳定性
|
高,任务可持续后台运行
|
关闭页面即终止任务
|
中,关闭本地浏览器窗口或切换页面即终止任务
|
|
日志查看
|
网页与日志同步查看
|
任务窗口+独立浏览器窗口搭配使用
|
任务窗口 + 您指定的本地浏览器窗口(如Chrome)搭配查看
|
|
新开标签页
|
在内置窗口内打开
|
按独立窗口标准存在
|
在您指定的本地浏览器(如Chrome)中以新标签页打开
|
2、场景推荐
|
场景
|
推荐方式
|
理由
|
|---|---|---|
|
电商商品详情(需登录)
|
独立浏览器
|
保持登录态,处理验证码
|
|
社交媒体数据采集
|
独立浏览器
|
反爬强,需验证
|
|
新闻资讯批量采集
|
内置浏览器
|
低反爬,高效稳定
|
|
公开名录数据采集
|
内置浏览器
|
大批量,后台运行
|
|
企业信息工商数据
|
内置浏览器
|
反爬较弱,适合定时任务
|
|
行业网站内容监控
|
独立浏览器
|
反爬较强,需人工处理
|
|
短信/扫码登录的网站
|
本地浏览器(强烈推荐)
|
本地浏览器已保持登录态,启动即可采集,无需配置复杂登录规则
|
|
需要浏览器插件辅助的场景(如翻译、代理切换)
|
本地浏览器
|
直接使用您已安装的浏览器插件,无需额外配置
|
|
涉及多级菜单、地图拖拽等复杂交互
|
本地浏览器
|
采集过程中支持人工实时干预,操作完继续执行,灵活度高
|
作者:YfY