开发者
npm install 一行装好,本地运行,数据不出机器。

一套 CLI,开发、运维、AI 工作流通吃。
npm install 一行装好,本地运行,数据不出机器。
接入 Jenkins、GitLab CI 或任意调度平台。退出码规范,凭证走环境变量——安全评审好过。
给 Dify、Coze 或自建 Agent 当工具调用。JSONL 流式输出,边采边用。
笔记本上能跑,CI 里能跑,智能体里也能跑。
做电商运营的小王,每天早上 9 点早会前要汇报竞品价格。以前得手动打开网页、复制粘贴到表格,再整理格式。现在一条命令跑完,咖啡还没凉,最新的价格表已经自动更新到飞书多维表格,再也不用守着浏览器一个个点。
$ octopus run jd-pricing
✓ 248 条 → 竞品价格.xlsx
一家连锁超市的数据中台,每天早上 6 点在服务器定时跑采集。跑成了,数据自动流进数仓;跑挂了,企业微信告警直接进值班群。中间不用维护一台服务器,也不用写一堆爬虫脚本。
# crontab 或 Jenkins 流水线
- run: octopus run $TASK --json
- run: python analyze.py
一家做大模型应用的公司,把八爪鱼 CLI 封装成智能体可调用的工具。用户说"帮我看看豆瓣上评分最高的 10 部科幻片",智能体直接调命令行采集,结果按 JSON 流一行行回来,任务还没跑完,AI 已经开始分析推荐。
tool: octopus.run
stream: jsonl
next_action: analyze_and_recommend
客户选择八爪鱼、并且一直用下去的六个理由。
淘宝、京东、小红书、微博、知乎……200 多个现成模板覆盖主流网站。字段统一、结构规范,不用自己写 XPath,也不用维护选择器。
浏览器池、代理轮换、反爬对抗、自动翻页、结构化导出,每一项都从 2018 年一路打磨到今天。
你采集的数据只属于你。我们不转售、不分发,更不会拿去训练模型。数据保留多久你说了算,想删就一键删干净。每次运行都带 trace_id,审计、回溯都有据可查。
JSON、JSONL、CSV、XLSX、XML,随便选,字段结构完全一致。配合 Airflow、DolphinScheduler 或自建定时任务,数据直接进 MySQL、ClickHouse、MaxCompute,飞书多维表格也能一键导入。
原生适配 DeepSeek、Kimi、Cursor、Trae、Dify、Coze。JSONL 边采边出,任务还没结束,你的智能体就能着手规划下一步。
免费额度随便试,不用绑卡;之后按量付费,价格明明白白。有客户算过账:不再自己养采集团队后,成本只剩原来的十八分之一。
八年采集基础设施打底,再经过无数生产环境用户的反馈,一点点磨出来的可靠。
“以前是三台云服务器撑着一整套 Selenium 集群,现在只是流水线里的一行命令。”
“我们的智能体直接把它当工具调。JSONL 一行行流回来,任务没跑完 AI 就能接着规划下一步,产品体验一下子上了个台阶。”
“退出码规范、密钥走环境变量、安全评审一次就过。做采集的工具里,这真不多见。”
免费试用,不用绑卡。不少团队早上装好,中午前就让它在 CI 里跑起来了。