2026年5月24日ResearchBenchmarkCoding

加上真实世界的约束,你的编程 agent 就悄悄崩了

Francesco Dente、Dario Satriani 和 Paolo Papotti 的一篇新论文,标题叫 Constraint Decay:后端代码生成中 LLM agent 的脆弱性,今天冲上了 Hacker News 首页,里面的发现应该能让那些看完 demo 就断定 agent 已经能搞定后端的人清醒一下。一句话说清楚:你往一个任务上不断堆结构化要求,agent 的表现就会衰减。有能力的配置从一个光秃秃的任务到一个完整规格的任务,断言通过率会掉大约 30 个百分点。这不是误差,这是能跑和跑不起来的区别。

细节才是真正扎人的地方。他们跑了 80 个从零生成的任务和 20 个功能实现任务,横跨八个 web 框架。agent 在 Flask 这种极简框架里表现还行,到了 FastAPI 和 Django 这种约定繁多的框架就垮了,而这恰恰是真实团队上线用的框架。根因还一点都不光鲜:数据层。查询拼错、ORM 运行时违规。最先崩的是管道部分。

为什么这是那种有用的论文。demo 永远给你看 agent 一把梭出一个干净的 CRUD 应用,看着像变魔术。但真实的后端工作几乎全是约束,鉴权规则、schema 不变量、框架约定、在高负载下必须扛住的数据完整性。这篇论文精确地量出了魔术在哪里停下,而它停在了那些无聊、肉眼难查的数据层代码上,就是你扫一眼 diff 根本抓不出来的那部分。

我的看法。现在 agent 研究里真正诚实的信号,不是又刷新了什么高分,而是认真做出来的负面结果。Constraint Decay 给一个每个用编程 agent 的团队都感受过、却说不清楚的失败模式起了名字:你的需求越真实,agent 帮的忙就越少。论文在 https://arxiv.org/abs/2605.06445
← 上一篇
Anthropic 把整个办公室打包成插件发出来了
下一篇 →
cmux 把终端重做了一遍,让 agent 没法从你眼皮底下溜走
← 返回所有文章

评论

加载中...
>_