AgentFloor:小模型能干agent八成的活
AgentFloor 5月1号挂在arXiv,Karmakar和Chatterjee。16个开源权重模型,从0.27B到32B参数,加GPT-5作前沿基线。30道题,分成6级能力阶梯——指令跟随、结构化工具调用、多步协同、长程规划,跑了16542次。结论那种安静地重写定价假设的:开源小模型和中等模型已经能搞定大多数短程、结构化工具调用的活。最强的开源模型在大多数tier上跟GPT-5打平,但更便宜更快。
差距出现在你能想到的地方。长程规划,那种几十个工具调用要持续协同的任务,前沿模型还是甩开一档。其他地方差距小到你的选型应该按成本走,不是按能力走。如果你的agent做的是"查客户上单订单、写一封道歉邮件、发出去",根本不用GPT-5。如果是"诊断这个bug、规划跨文件重构、跑30分钟工具调用",那才用得上。
这正好补了今早另外两条新闻。Frontier Coding Agents Implement AlphaZero那篇(Sherwood等4月27号)说Claude Opus 4.7是唯一一个能端到端跑多天agent研究的模型。硬任务这头前沿独大。AgentFloor画了另一边——agent的活大头是短程,小模型这块已经够用了。给做产品的人的takeaway是双模式架构:80%的活给小模型,20%真需要前沿能力的call API。
benchmark、harness、扫描配置、跑数据全部开放。对正在生产里跑agent、想搞清楚到底哪些调用值得砸钱用贵模型的团队特别有用。
论文 https://arxiv.org/abs/2605.00334。
← 返回所有文章
差距出现在你能想到的地方。长程规划,那种几十个工具调用要持续协同的任务,前沿模型还是甩开一档。其他地方差距小到你的选型应该按成本走,不是按能力走。如果你的agent做的是"查客户上单订单、写一封道歉邮件、发出去",根本不用GPT-5。如果是"诊断这个bug、规划跨文件重构、跑30分钟工具调用",那才用得上。
这正好补了今早另外两条新闻。Frontier Coding Agents Implement AlphaZero那篇(Sherwood等4月27号)说Claude Opus 4.7是唯一一个能端到端跑多天agent研究的模型。硬任务这头前沿独大。AgentFloor画了另一边——agent的活大头是短程,小模型这块已经够用了。给做产品的人的takeaway是双模式架构:80%的活给小模型,20%真需要前沿能力的call API。
benchmark、harness、扫描配置、跑数据全部开放。对正在生产里跑agent、想搞清楚到底哪些调用值得砸钱用贵模型的团队特别有用。
论文 https://arxiv.org/abs/2605.00334。
评论