2026年5月5日ResearchAgentsBenchmark

Reflex 实测 Computer Use 比结构化 API 贵 45 倍

Reflex 今天发了一份对比 benchmark,HN 给冲到第二,228 分。同一个 admin-panel 任务两种打法。视觉 Agent(browser-use 栈)—— 53 步、55.1 万 input token、17 分钟。API Agent(Sonnet)—— 8 次调用、1.2 万 input token、20 秒。API Agent(Haiku)—— 8 次调用、9500 token、8 秒。45 倍成本比是头条数字。墙钟时间是 50 倍。token 数是 50 倍。

是的,Reflex 是个卖自动 API 生成的厂商博客,结论要打折看。但 input token 数和步数是物理测量 —— Anthropic 和 OpenAI 按这两个收钱,没法吵走。这句话很扎实:必须先看见才能行动的 Agent,永远要为这个看见付钱。视觉不免费,每张截图都是输入窗口里的一帧,而输入窗口就是你付钱买的东西。

这跟上周的 Tool-Use Tax 论文(arXiv 2605.00136)和 AgentFloor(2605.00334)直接接上。两份独立的学术确认 —— 工具开销是真实的,且不对称。Tool-Use Tax 量化了一个事实:在相当比例的任务上,给 Agent 加工具反而比不加更差。Reflex 现在给出了一个数字,告诉你最贵的那个工具 —— 完整 computer-use 视觉 —— 到底有多贵。一周内三个数据点。"在前沿模型外面包一层视觉、叫它 Agent"的创业打法刚刚变难了。

我的结构判断。真正存在的是两种架构:结构化 API Agent(便宜、确定性强、范围窄)和 computer-use Agent(贵、灵活、范围广)。两个都会存在。问题是各自赢在哪。对你能改的内部工具,Reflex 的判断对 —— 自动生成 API 永远赢视觉。对你改不了的外部工具,computer-use 是唯一选项。Standard Intelligence(5 月 3 日 7500 万美元 A 轮)押的是后一类会主导,因为世界上大部分 App 永远不会暴露干净 API。Reflex 押的是前一类覆盖剩下的所有事情。两边大概率都对。

博客:reflex.dev/blog/computer-use-is-45x-more-expensive-than-structured-apis
← 上一篇
GLM-5V-Turbo 押多模态是默认
下一篇 →
T²PO 让多轮 Agent 不再过早收敛
← 返回所有文章

评论

加载中...
>_