2026年5月10日Research Agents Benchmark

DeepMind 数学副驾在 FrontierMath 最难分级上拿到 48%

Google DeepMind 昨天在 arXiv 放出一篇论文，叫 AI Co-Mathematician。最显眼的数字——FrontierMath Tier 4 上 48%。Tier 4 是 FrontierMath 里最难的一档，之前的公开最佳大概在 30%。所有被评估过的 AI 系统里的新 SOTA。

18 个作者。Pushmeet Kohli、Alex Davies（AlphaProof 那拨人）。Fernanda Viegas、Martin Wattenberg 来自 Google AI 的可视化方向。Daniel Roy 主理论。这不是某个小团队的论文，是 DeepMind 整条 agentic-research 链一起往一个目标砸。

产品形态：给在职数学家用的交互式 workbench。五个能力打通——想法生成、文献检索、计算探索、定理证明、理论构建。异步工作空间，长任务里管理不确定性，输出的是原生数学制品（LaTeX、Lean、图）而不是纯文本。Agentic 循环本身就是产品，不是给一个最终答案。

整篇论文的 framing 很有意思。大多数 research-agent demo 卖的是「AI 替你做研究」。这篇明摆着说——是加速人类数学家。长周期任务里人类留在 loop 里，AI 干那些枯燥的检索、计算、证明尝试，验证环节是硬的（Lean 检查、计算结果）而不是凭感觉。

arxiv.org/abs/2605.06651，22 页。还没放代码。跟 AlphaEvolve、AlphaProof、上周的 Auto Research with Specialist Agents 论文连成一条线——DeepMind 现在差不多每个月放一个 research-agent 系统出来。数学家把 AI 当真正的副驾用，不再是愿景，已经是 48% 的硬数字。

← 上一篇

深度: 一个季度，Autoresearch从demo变成生产经济学

Chrome DevTools MCP v0.25.0：Google 官方把第三方工具也打开了

← 返回所有文章

加载中...

DeepMind 数学副驾在 FrontierMath 最难分级上拿到 48%

相关文章

评论