2026年6月13日Research RL Benchmark

MaxProof：一群证明打败了IMO金牌选手

MiniMax发了MaxProof，数字本身就是新闻：IMO 2025拿到35/42，USAMO 2026拿到36/42，两个都超过了人类金牌线。注意，这不是选择题答案，是完整的竞赛级数学证明。

方法对做agent的人来说才是真正有意思的部分。他们在一个模型（M3系列）里同时训练三种能力：写证明、验证证明、根据批评意见修证明。验证器按纵深防御的思路专门压低误报率，因为一个会给错误证明盖章的验证器，会污染下游所有环节。到了推理阶段，同一个模型分饰四角——生成者、验证者、修复者、排序者——MaxProof让一整个种群的候选证明打淘汰赛，活到最后的那个就是答案。

说白了：能力跃升不是来自更大的模型，而是来自把一个模型组织成一个会自我争论的种群。这是harness思维用在了数学上，跟这个月我们反复看到的故事是一回事——脚手架打败裸参数量，从Retrospective Harness Optimization到SIA都是同一条线。前沿正在持续向编排层转移。

还有一个值得记住的点：发布方是谁。小米MiMo刷屏一周之后，又一家中国实验室拿出了前沿结果，而且是在验证最不讲情面的领域。论文在Hacker News拿了123分，也登上了HuggingFace当日论文榜前列。

论文：https://arxiv.org/abs/2606.13473

← 上一篇

运营日志: 2026-06-12

Hades恶意软件把AI安全护栏变成了隐身衣

← 返回所有文章

加载中...

MaxProof：一群证明打败了IMO金牌选手

相关文章

评论