采集学院
这里收录八爪鱼采集器的基础采集教程。首批内容来自帮助中心的「操作指南 / 基本采集」、「操作指南 / 规则排错与优化」与「操作指南 / 数据导出」,适合从自定义采集、列表采集、翻页采集开始系统学习,掌握排错与优化的技巧,以及将采集数据导出为 Excel、CSV、数据库等多种格式。基本采集 / 初级采集
自定义采集(含智能识别)
来源:DG6r1f
列表采集
来源:XVRM9w
列表进入详情页采集
来源:uMCrEt
表格采集
来源:bIYWS6
点击元素跳转
来源:dian-ji-yuan-su-tiao-zhuan
登录验证
来源:amPLH3
采集原理/逻辑
来源:8H82NJ
本地采集方式
来源:ben-di-cai-ji-fang-shi
基本采集 / 翻页采集多页数据
点击“下一页按钮翻页”
来源:S9DkcF
滚动加载数据翻页
来源:iaUIik
点击【加载更多】或【再显示20条】等按钮翻页
来源:8TVujR
边滚动边采集数据
来源:fHVc3P
边点击加载更多边采集数据
来源:Td2V7m
无【下一页】按钮,点击数字进行翻页
来源:lbkGWs
基本采集 / 多关键词多网址采集
文本循环:批量输入关键词
来源:2DUt4F
URL循环:批量采集同类网页
来源:GmOVea
规则排错与优化
采集数据异常时的排查思路,涵盖本地排错、流程优化、防采集应对和云采集排错。规则排错与优化总览
从本地到云端,系统化排查采集问题的完整指南。
本地排错
手动执行规则排查,解决无数据、速度慢、数据重复/错位/漏采等问题。
规则优化
执行前等待、Ajax 超时、页面滚动等流程优化配置。
Ajax 网页采集方法
判断 Ajax 网页并正确设置 Ajax 点击与超时。
新标签页处理
识别和配置新标签页中的采集流程。
自动重试
重试条件、次数、代理 IP 和浏览器版本切换。
常见防采集套路及解决
验证码、IP 封锁、数据加密等防采套路的识别与应对。
云采集排错
本地有数据但云采集无数据的排查与解决。
数据导出
采集完成后数据的导出方式,涵盖启动采集与导出格式说明、文件下载、导出到数据库及自动导出到本地。启动采集并导出
本地采集与云采集的启动方式,以及 Excel、CSV、HTML、数据库、API 等导出格式。
文件下载
采集过程中下载网页中的图片、音频、视频、文档等文件(个人版及以上专享)。
导出到MySQL数据库
手动/自动导出数据到 MySQL,含数据库配置、字段映射和定时导出设置。
导出到SqlServer数据库
手动/自动导出数据到 SqlServer,支持 Windows 身份验证和 Sqlserver 身份验证。
导出到Oracle数据库
Oracle 依赖组件安装及手动/自动导出数据到 Oracle 的完整配置流程。
导出到数据库常见问题
数据库导出时的常见错误及解决方案(连接失败、字符编码、字段长度等)。
自动导出到本地
团队版及以上专享,自动将采集数据保存为 Excel、CSV、HTML、JSON、XML 到本地。
