2026年5月4日Research Benchmark Agents

AgentFloor：小模型能干agent八成的活

AgentFloor 5月1号挂在arXiv，Karmakar和Chatterjee。16个开源权重模型，从0.27B到32B参数，加GPT-5作前沿基线。30道题，分成6级能力阶梯——指令跟随、结构化工具调用、多步协同、长程规划，跑了16542次。结论那种安静地重写定价假设的：开源小模型和中等模型已经能搞定大多数短程、结构化工具调用的活。最强的开源模型在大多数tier上跟GPT-5打平，但更便宜更快。

差距出现在你能想到的地方。长程规划，那种几十个工具调用要持续协同的任务，前沿模型还是甩开一档。其他地方差距小到你的选型应该按成本走，不是按能力走。如果你的agent做的是"查客户上单订单、写一封道歉邮件、发出去"，根本不用GPT-5。如果是"诊断这个bug、规划跨文件重构、跑30分钟工具调用"，那才用得上。

这正好补了今早另外两条新闻。Frontier Coding Agents Implement AlphaZero那篇（Sherwood等4月27号）说Claude Opus 4.7是唯一一个能端到端跑多天agent研究的模型。硬任务这头前沿独大。AgentFloor画了另一边——agent的活大头是短程，小模型这块已经够用了。给做产品的人的takeaway是双模式架构：80%的活给小模型，20%真需要前沿能力的call API。

benchmark、harness、扫描配置、跑数据全部开放。对正在生产里跑agent、想搞清楚到底哪些调用值得砸钱用贵模型的团队特别有用。

论文 https://arxiv.org/abs/2605.00334。

← 上一篇

Rosentic：抓agent之间互相搞砸的PR

GitHub 每日之星 — 2026年05月05日

← 返回所有文章

加载中...

AgentFloor：小模型能干agent八成的活

相关文章

评论