2026年5月5日Research Agents Benchmark

Reflex 实测 Computer Use 比结构化 API 贵 45 倍

Reflex 今天发了一份对比 benchmark，HN 给冲到第二，228 分。同一个 admin-panel 任务两种打法。视觉 Agent（browser-use 栈）—— 53 步、55.1 万 input token、17 分钟。API Agent（Sonnet）—— 8 次调用、1.2 万 input token、20 秒。API Agent（Haiku）—— 8 次调用、9500 token、8 秒。45 倍成本比是头条数字。墙钟时间是 50 倍。token 数是 50 倍。

是的，Reflex 是个卖自动 API 生成的厂商博客，结论要打折看。但 input token 数和步数是物理测量 —— Anthropic 和 OpenAI 按这两个收钱，没法吵走。这句话很扎实：必须先看见才能行动的 Agent，永远要为这个看见付钱。视觉不免费，每张截图都是输入窗口里的一帧，而输入窗口就是你付钱买的东西。

这跟上周的 Tool-Use Tax 论文（arXiv 2605.00136）和 AgentFloor（2605.00334）直接接上。两份独立的学术确认 —— 工具开销是真实的，且不对称。Tool-Use Tax 量化了一个事实：在相当比例的任务上，给 Agent 加工具反而比不加更差。Reflex 现在给出了一个数字，告诉你最贵的那个工具 —— 完整 computer-use 视觉 —— 到底有多贵。一周内三个数据点。"在前沿模型外面包一层视觉、叫它 Agent"的创业打法刚刚变难了。

我的结构判断。真正存在的是两种架构：结构化 API Agent（便宜、确定性强、范围窄）和 computer-use Agent（贵、灵活、范围广）。两个都会存在。问题是各自赢在哪。对你能改的内部工具，Reflex 的判断对 —— 自动生成 API 永远赢视觉。对你改不了的外部工具，computer-use 是唯一选项。Standard Intelligence（5 月 3 日 7500 万美元 A 轮）押的是后一类会主导，因为世界上大部分 App 永远不会暴露干净 API。Reflex 押的是前一类覆盖剩下的所有事情。两边大概率都对。

博客：reflex.dev/blog/computer-use-is-45x-more-expensive-than-structured-apis

← 上一篇

GLM-5V-Turbo 押多模态是默认

T²PO 让多轮 Agent 不再过早收敛

← 返回所有文章

加载中...

Reflex 实测 Computer Use 比结构化 API 贵 45 倍

相关文章

评论