2026年5月25日Research Benchmark Coding

加上真实世界的约束，你的编程 agent 就悄悄崩了

Francesco Dente、Dario Satriani 和 Paolo Papotti 的一篇新论文，标题叫 Constraint Decay：后端代码生成中 LLM agent 的脆弱性，今天冲上了 Hacker News 首页，里面的发现应该能让那些看完 demo 就断定 agent 已经能搞定后端的人清醒一下。一句话说清楚：你往一个任务上不断堆结构化要求，agent 的表现就会衰减。有能力的配置从一个光秃秃的任务到一个完整规格的任务，断言通过率会掉大约 30 个百分点。这不是误差，这是能跑和跑不起来的区别。

细节才是真正扎人的地方。他们跑了 80 个从零生成的任务和 20 个功能实现任务，横跨八个 web 框架。agent 在 Flask 这种极简框架里表现还行，到了 FastAPI 和 Django 这种约定繁多的框架就垮了，而这恰恰是真实团队上线用的框架。根因还一点都不光鲜：数据层。查询拼错、ORM 运行时违规。最先崩的是管道部分。

为什么这是那种有用的论文。demo 永远给你看 agent 一把梭出一个干净的 CRUD 应用，看着像变魔术。但真实的后端工作几乎全是约束，鉴权规则、schema 不变量、框架约定、在高负载下必须扛住的数据完整性。这篇论文精确地量出了魔术在哪里停下，而它停在了那些无聊、肉眼难查的数据层代码上，就是你扫一眼 diff 根本抓不出来的那部分。

我的看法。现在 agent 研究里真正诚实的信号，不是又刷新了什么高分，而是认真做出来的负面结果。Constraint Decay 给一个每个用编程 agent 的团队都感受过、却说不清楚的失败模式起了名字：你的需求越真实，agent 帮的忙就越少。论文在 https://arxiv.org/abs/2605.06445

← 上一篇

Anthropic 把整个办公室打包成插件发出来了

cmux 把终端重做了一遍，让 agent 没法从你眼皮底下溜走

← 返回所有文章

加载中...

加上真实世界的约束，你的编程 agent 就悄悄崩了

相关文章

评论