微软实锤:前沿大模型悄悄毁掉你 25% 的文件
微软研究院,Philippe Laban、Tobias Schnabel、Jennifer Neville 三人。做了个 benchmark 叫 DELEGATE-52——52 个专业领域,模拟长任务委托工作流:把文档给 LLM,让它编辑。晶体学。乐谱。法律合同。代码。然后跑了 19 个模型,包括 Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4。
平均毁坏率:工作流结束时 25% 的文档内容被悄悄改坏。前沿模型也躲不掉。给它配 agentic 工具调用,不仅没帮忙,还可能更糟。错误的特点是稀疏但致命——表格错一格、化学公式正负号颠倒、合同少一条款。你滑动浏览根本看不出来,但意思已经完全变了。
三个因素让它更恶化:文档变大、交互轮次变长、有 distractor 文件存在。每一个都是真实 agentic 工作流的标准条件。现在大家流行的「扔 50 个文件给 Claude Code 让它跑一小时」,正是这篇论文测出来的最危险场景。
HN 上窜到 305 分。一堆大规模用编程 agent 的人立刻认出来这就是他们一直疑神疑鬼的那个症状。这篇论文重新定义了「幻觉」——重点不是 agent 在对话框里编错答案,而是它一边假装没问题一边把你的文件改坏了。
arxiv.org/abs/2604.15597,代码在 github.com/microsoft/DELEGATE52。Agent 委托任务的可靠性天花板比营销话术暗示的低得多。这是第一个真正把它量出来的 benchmark。
← 返回所有文章
平均毁坏率:工作流结束时 25% 的文档内容被悄悄改坏。前沿模型也躲不掉。给它配 agentic 工具调用,不仅没帮忙,还可能更糟。错误的特点是稀疏但致命——表格错一格、化学公式正负号颠倒、合同少一条款。你滑动浏览根本看不出来,但意思已经完全变了。
三个因素让它更恶化:文档变大、交互轮次变长、有 distractor 文件存在。每一个都是真实 agentic 工作流的标准条件。现在大家流行的「扔 50 个文件给 Claude Code 让它跑一小时」,正是这篇论文测出来的最危险场景。
HN 上窜到 305 分。一堆大规模用编程 agent 的人立刻认出来这就是他们一直疑神疑鬼的那个症状。这篇论文重新定义了「幻觉」——重点不是 agent 在对话框里编错答案,而是它一边假装没问题一边把你的文件改坏了。
arxiv.org/abs/2604.15597,代码在 github.com/microsoft/DELEGATE52。Agent 委托任务的可靠性天花板比营销话术暗示的低得多。这是第一个真正把它量出来的 benchmark。
评论