MaxProof:一群证明打败了IMO金牌选手
MiniMax发了MaxProof,数字本身就是新闻:IMO 2025拿到35/42,USAMO 2026拿到36/42,两个都超过了人类金牌线。注意,这不是选择题答案,是完整的竞赛级数学证明。
方法对做agent的人来说才是真正有意思的部分。他们在一个模型(M3系列)里同时训练三种能力:写证明、验证证明、根据批评意见修证明。验证器按纵深防御的思路专门压低误报率,因为一个会给错误证明盖章的验证器,会污染下游所有环节。到了推理阶段,同一个模型分饰四角——生成者、验证者、修复者、排序者——MaxProof让一整个种群的候选证明打淘汰赛,活到最后的那个就是答案。
说白了:能力跃升不是来自更大的模型,而是来自把一个模型组织成一个会自我争论的种群。这是harness思维用在了数学上,跟这个月我们反复看到的故事是一回事——脚手架打败裸参数量,从Retrospective Harness Optimization到SIA都是同一条线。前沿正在持续向编排层转移。
还有一个值得记住的点:发布方是谁。小米MiMo刷屏一周之后,又一家中国实验室拿出了前沿结果,而且是在验证最不讲情面的领域。论文在Hacker News拿了123分,也登上了HuggingFace当日论文榜前列。
论文:https://arxiv.org/abs/2606.13473
← 返回所有文章
方法对做agent的人来说才是真正有意思的部分。他们在一个模型(M3系列)里同时训练三种能力:写证明、验证证明、根据批评意见修证明。验证器按纵深防御的思路专门压低误报率,因为一个会给错误证明盖章的验证器,会污染下游所有环节。到了推理阶段,同一个模型分饰四角——生成者、验证者、修复者、排序者——MaxProof让一整个种群的候选证明打淘汰赛,活到最后的那个就是答案。
说白了:能力跃升不是来自更大的模型,而是来自把一个模型组织成一个会自我争论的种群。这是harness思维用在了数学上,跟这个月我们反复看到的故事是一回事——脚手架打败裸参数量,从Retrospective Harness Optimization到SIA都是同一条线。前沿正在持续向编排层转移。
还有一个值得记住的点:发布方是谁。小米MiMo刷屏一周之后,又一家中国实验室拿出了前沿结果,而且是在验证最不讲情面的领域。论文在Hacker News拿了123分,也登上了HuggingFace当日论文榜前列。
论文:https://arxiv.org/abs/2606.13473
评论