使用八爪鱼 CLI,在命令行中完成网页检测、任务生成、已有任务运行、云采集控制和数据导出。八爪鱼 CLI 是面向开发者、数据团队、运维和 AI Agent 场景的命令行工具。v0.1.24 将 Agent 工作流提升为 LLM 创建任务的推荐路径,新增视觉审查契约与生成任务后的样品采集能力。
CLI 能做什么
网页检测与任务生成
使用
octopus detect 检测列表页、详情页与分页逻辑,并生成可复用本地任务文件。运行生成的任务
使用
octopus run <taskId> --task-file task.json 执行检测生成的任务,并通过 --max-rows 控制条数。运行已有任务
使用
octopus run <taskId> 本地运行,或用 octopus cloud start <taskId> 在云端运行。导出采集数据
通过
octopus data history/export 查看历史批次并导出 XLSX、CSV、HTML、JSON、XML。安装
- Node.js 20 或更高版本(推荐 22 LTS)
- npm 8 或更高版本
- Windows x64、macOS x64 / arm64、Linux x64
- 网页
detect与本地run需要可用 Chrome 环境
常见工作流
快速命令示例
CLI、MCP / 客户端功能对比
| 功能 | MCP / 客户端 | CLI |
|---|---|---|
| 浏览和搜索采集模板 | 可以 | 不可以 |
| 从 URL 新建采集任务 | 客户端可以 | 可以,使用 octopus detect |
| 从 URL 执行采集 | 客户端可以 | 先用 detect 生成任务,再使用 run <taskId> --task-file |
| 修改复杂采集规则 | 客户端更适合 | 部分支持,复杂规则建议客户端调整 |
| 运行已有任务 | 可以 | 可以 |
| 停止正在运行的任务 | 可以 | 可以 |
| 查看任务状态 | 可以 | 可以 |
| 导出采集数据 | 可以 | 可以 |
| 写成脚本自动执行 | 不适合 | 可以 |
| 接入 AI Agent | MCP 更自然 | 可以,通过 JSON / JSONL 与 Agent 模式 |
CLI、MCP 与桌面客户端怎么选
| 场景 | 推荐方式 |
|---|---|
| 在 ChatGPT、Claude、Cursor、Gemini、QClaw 等 AI 中用自然语言操作 | MCP 服务 |
| 新 URL 快速试采、命令行自动化、服务器 / CI 定时采集 | 八爪鱼 CLI |
| 可视化搭建复杂规则、精细调整流程 | 八爪鱼桌面客户端 |
当前限制
- CLI v1 不支持内核浏览器(Kernel browser)及旧版工作流(Legacy workflow)。
- Linux arm64 暂不支持本地执行。
detect与本地run依赖浏览器环境;网页结构复杂、登录墙或强风控页面可能需要在客户端中进一步调整规则。
下一步
安装与验证
安装 CLI、检查 Node.js / Chrome 环境与平台支持。
运行第一个任务
从新 URL 生成任务并运行,或运行已有任务并导出数据。
网页检测与任务生成
从 URL 检测结构并生成可复用任务文件。
命令速查表
认证、识别、运行、导出命令一览。
