跳转到主要内容

采集学院

这里收录八爪鱼采集器的基础采集教程。首批内容来自帮助中心的「操作指南 / 基本采集」、「操作指南 / 规则排错与优化」与「操作指南 / 数据导出」,适合从自定义采集、列表采集、翻页采集开始系统学习,掌握排错与优化的技巧,以及将采集数据导出为 Excel、CSV、数据库等多种格式。

基本采集 / 初级采集

自定义采集(含智能识别)

来源:DG6r1f

列表采集

来源:XVRM9w

列表进入详情页采集

来源:uMCrEt

表格采集

来源:bIYWS6

点击元素跳转

来源:dian-ji-yuan-su-tiao-zhuan

登录验证

来源:amPLH3

采集原理/逻辑

来源:8H82NJ

本地采集方式

来源:ben-di-cai-ji-fang-shi

基本采集 / 翻页采集多页数据

点击“下一页按钮翻页”

来源:S9DkcF

滚动加载数据翻页

来源:iaUIik

点击【加载更多】或【再显示20条】等按钮翻页

来源:8TVujR

边滚动边采集数据

来源:fHVc3P

边点击加载更多边采集数据

来源:Td2V7m

无【下一页】按钮,点击数字进行翻页

来源:lbkGWs

基本采集 / 多关键词多网址采集

文本循环:批量输入关键词

来源:2DUt4F

URL循环:批量采集同类网页

来源:GmOVea

规则排错与优化

采集数据异常时的排查思路,涵盖本地排错、流程优化、防采集应对和云采集排错。

规则排错与优化总览

从本地到云端,系统化排查采集问题的完整指南。

本地排错

手动执行规则排查,解决无数据、速度慢、数据重复/错位/漏采等问题。

规则优化

执行前等待、Ajax 超时、页面滚动等流程优化配置。

Ajax 网页采集方法

判断 Ajax 网页并正确设置 Ajax 点击与超时。

新标签页处理

识别和配置新标签页中的采集流程。

自动重试

重试条件、次数、代理 IP 和浏览器版本切换。

常见防采集套路及解决

验证码、IP 封锁、数据加密等防采套路的识别与应对。

云采集排错

本地有数据但云采集无数据的排查与解决。

数据导出

采集完成后数据的导出方式,涵盖启动采集与导出格式说明、文件下载、导出到数据库及自动导出到本地。

启动采集并导出

本地采集与云采集的启动方式,以及 Excel、CSV、HTML、数据库、API 等导出格式。

文件下载

采集过程中下载网页中的图片、音频、视频、文档等文件(个人版及以上专享)。

导出到MySQL数据库

手动/自动导出数据到 MySQL,含数据库配置、字段映射和定时导出设置。

导出到SqlServer数据库

手动/自动导出数据到 SqlServer,支持 Windows 身份验证和 Sqlserver 身份验证。

导出到Oracle数据库

Oracle 依赖组件安装及手动/自动导出数据到 Oracle 的完整配置流程。

导出到数据库常见问题

数据库导出时的常见错误及解决方案(连接失败、字符编码、字段长度等)。

自动导出到本地

团队版及以上专享,自动将采集数据保存为 Excel、CSV、HTML、JSON、XML 到本地。