运行方式取决于任务来源:新 URL 先用detect生成任务文件,已有任务可用run,大批量稳定采集可用云端运行。
octopus run(本地运行已有任务)
命令描述
在你自己的电脑上启动本地采集。CLI 会使用独立 Chrome 执行采集,你可以实时看到浏览器窗口,除非使用 --headless。
运行本地任务文件
detect 生成的 .json 任务文件可直接用于本地运行:
taskId,或按 CLI 输出提示传入。
后台运行与本地控制
使用--detach 后,终端可以关闭,任务会继续在后台运行。之后用 local 子命令管理:
--output ./runs,查询状态或导出时也应使用同一目录:
octopus cloud start(云端运行任务)
怎么选运行方式
| 场景 | 推荐方式 | 原因 |
|---|---|---|
| LLM / Agent 从新 URL 创建任务 | octopus detect URL --agent --agent-command "<可信本地运行器>" --goal "采集目标" --yes --run-sample 3 --json | 同时保留视觉审查、任务生成和少量样品质量信息 |
| 用户直接从新 URL 创建任务 | octopus detect URL --auto --task-id <taskId> --output task.json 后 octopus run <taskId> --task-file task.json | 自动选择候选区,生成并校验任务后再执行采集 |
| 需要人工选择采集区域 | octopus detect URL --manual --output task.json | 可交互选择详情页、列表和分页方式 |
| 已有任务,调试或小批量 | octopus run <taskId> | 能看到本地浏览器,便于排查 |
| 已有任务,大批量或定期运行 | octopus cloud start <taskId> | 交给云端资源执行 |
下一步
网页检测与任务生成
从网页 URL 检测结构并生成任务文件。
导出数据
将采集结果导出为文件。
