2026年5月9日Research Benchmark Agents

微软实锤：前沿大模型悄悄毁掉你 25% 的文件

微软研究院，Philippe Laban、Tobias Schnabel、Jennifer Neville 三人。做了个 benchmark 叫 DELEGATE-52——52 个专业领域，模拟长任务委托工作流：把文档给 LLM，让它编辑。晶体学。乐谱。法律合同。代码。然后跑了 19 个模型，包括 Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4。

平均毁坏率：工作流结束时 25% 的文档内容被悄悄改坏。前沿模型也躲不掉。给它配 agentic 工具调用，不仅没帮忙，还可能更糟。错误的特点是稀疏但致命——表格错一格、化学公式正负号颠倒、合同少一条款。你滑动浏览根本看不出来，但意思已经完全变了。

三个因素让它更恶化：文档变大、交互轮次变长、有 distractor 文件存在。每一个都是真实 agentic 工作流的标准条件。现在大家流行的「扔 50 个文件给 Claude Code 让它跑一小时」，正是这篇论文测出来的最危险场景。

HN 上窜到 305 分。一堆大规模用编程 agent 的人立刻认出来这就是他们一直疑神疑鬼的那个症状。这篇论文重新定义了「幻觉」——重点不是 agent 在对话框里编错答案，而是它一边假装没问题一边把你的文件改坏了。

arxiv.org/abs/2604.15597，代码在 github.com/microsoft/DELEGATE52。Agent 委托任务的可靠性天花板比营销话术暗示的低得多。这是第一个真正把它量出来的 benchmark。

← 上一篇

SkillOS：会自己进化技能库的智能体

超级用户日报: 2026-05-10

← 返回所有文章

加载中...

微软实锤：前沿大模型悄悄毁掉你 25% 的文件

更多文章

评论