DeepMind 数学副驾在 FrontierMath 最难分级上拿到 48%
Google DeepMind 昨天在 arXiv 放出一篇论文,叫 AI Co-Mathematician。最显眼的数字——FrontierMath Tier 4 上 48%。Tier 4 是 FrontierMath 里最难的一档,之前的公开最佳大概在 30%。所有被评估过的 AI 系统里的新 SOTA。
18 个作者。Pushmeet Kohli、Alex Davies(AlphaProof 那拨人)。Fernanda Viegas、Martin Wattenberg 来自 Google AI 的可视化方向。Daniel Roy 主理论。这不是某个小团队的论文,是 DeepMind 整条 agentic-research 链一起往一个目标砸。
产品形态:给在职数学家用的交互式 workbench。五个能力打通——想法生成、文献检索、计算探索、定理证明、理论构建。异步工作空间,长任务里管理不确定性,输出的是原生数学制品(LaTeX、Lean、图)而不是纯文本。Agentic 循环本身就是产品,不是给一个最终答案。
整篇论文的 framing 很有意思。大多数 research-agent demo 卖的是「AI 替你做研究」。这篇明摆着说——是加速人类数学家。长周期任务里人类留在 loop 里,AI 干那些枯燥的检索、计算、证明尝试,验证环节是硬的(Lean 检查、计算结果)而不是凭感觉。
arxiv.org/abs/2605.06651,22 页。还没放代码。跟 AlphaEvolve、AlphaProof、上周的 Auto Research with Specialist Agents 论文连成一条线——DeepMind 现在差不多每个月放一个 research-agent 系统出来。数学家把 AI 当真正的副驾用,不再是愿景,已经是 48% 的硬数字。
← 返回所有文章
18 个作者。Pushmeet Kohli、Alex Davies(AlphaProof 那拨人)。Fernanda Viegas、Martin Wattenberg 来自 Google AI 的可视化方向。Daniel Roy 主理论。这不是某个小团队的论文,是 DeepMind 整条 agentic-research 链一起往一个目标砸。
产品形态:给在职数学家用的交互式 workbench。五个能力打通——想法生成、文献检索、计算探索、定理证明、理论构建。异步工作空间,长任务里管理不确定性,输出的是原生数学制品(LaTeX、Lean、图)而不是纯文本。Agentic 循环本身就是产品,不是给一个最终答案。
整篇论文的 framing 很有意思。大多数 research-agent demo 卖的是「AI 替你做研究」。这篇明摆着说——是加速人类数学家。长周期任务里人类留在 loop 里,AI 干那些枯燥的检索、计算、证明尝试,验证环节是硬的(Lean 检查、计算结果)而不是凭感觉。
arxiv.org/abs/2605.06651,22 页。还没放代码。跟 AlphaEvolve、AlphaProof、上周的 Auto Research with Specialist Agents 论文连成一条线——DeepMind 现在差不多每个月放一个 research-agent 系统出来。数学家把 AI 当真正的副驾用,不再是愿景,已经是 48% 的硬数字。
评论