跳转到主要内容
运行方式取决于任务来源:新 URL 先用 detect 生成任务文件,已有任务可用 run,大批量稳定采集可用云端运行。

octopus run(本地运行已有任务)

命令描述 在你自己的电脑上启动本地采集。CLI 会使用独立 Chrome 执行采集,你可以实时看到浏览器窗口,除非使用 --headless
octopus run <taskId>
常用选项:
octopus run <taskId> --headless
octopus run <taskId> --max-rows 100
octopus run <taskId> --detach
octopus run <taskId> --output ./runs

运行本地任务文件

detect 生成的 .json 任务文件可直接用于本地运行:
octopus run <taskId> --task-file ./task.json --output ./results/
octopus run <taskId> --task-file ./task.json --detach --max-rows 100
如果命令需要任务标识,可使用任务文件中的 taskId,或按 CLI 输出提示传入。

后台运行与本地控制

使用 --detach 后,终端可以关闭,任务会继续在后台运行。之后用 local 子命令管理:
octopus local status <taskId>
octopus local pause <taskId>
octopus local resume <taskId>
octopus local stop <taskId>
octopus local cleanup
如果本地运行时指定了 --output ./runs,查询状态或导出时也应使用同一目录:
octopus local status <taskId> --output ./runs

octopus cloud start(云端运行任务)

octopus cloud start <taskId>
octopus cloud status <taskId>
octopus cloud history <taskId>
octopus cloud stop <taskId>
云端运行适合稳定任务、大数据量任务和不希望本地 Chrome 长时间运行的场景。

怎么选运行方式

场景推荐方式原因
LLM / Agent 从新 URL 创建任务octopus detect URL --agent --agent-command "<可信本地运行器>" --goal "采集目标" --yes --run-sample 3 --json同时保留视觉审查、任务生成和少量样品质量信息
用户直接从新 URL 创建任务octopus detect URL --auto --task-id <taskId> --output task.jsonoctopus run <taskId> --task-file task.json自动选择候选区,生成并校验任务后再执行采集
需要人工选择采集区域octopus detect URL --manual --output task.json可交互选择详情页、列表和分页方式
已有任务,调试或小批量octopus run <taskId>能看到本地浏览器,便于排查
已有任务,大批量或定期运行octopus cloud start <taskId>交给云端资源执行
若出现 runtime.extension.not_registered Extension did not register within 15000ms,请先运行 octopus doctoroctopus browser doctor,根据失败项修复 Chrome、引擎文件或浏览器依赖。

下一步

网页检测与任务生成

从网页 URL 检测结构并生成任务文件。

导出数据

将采集结果导出为文件。