Frontier Coding Agents 三小时复现 AlphaZero 还赢过求解器
arxiv 上一篇新论文(2604.25067),作者 Joshua Sherwood、Ben Aybar、Benjamin Kaplan,测试前沿 coding agent 能不能在消费级硬件上、3 小时预算内,自主实现一个 AlphaZero 风格的 Connect Four ML pipeline。他们测了四个 agent,每个 8 trials:Claude Opus 4.7(Claude Code)、Opus 4.6、GPT-5.4(Codex)、Gemini 3.1 Pro(Gemini CLI)。基准用的是 Pascal Pons Connect Four 求解器——形式最优解。
结果震撼。Claude Opus 4.7 作为先手对战 Pons,8 局赢了 7 局。其他三个 agent 没有一个超过 8 局赢 2 局。有几次 Opus 4.7 训出的策略网络在后手位甚至超过了求解器本身。同样的任务今年 1 月所有 agent 都做不出来。三个月后,接近饱和。
GPT-5.4 表现出值得记一笔的反常:它一直只用了分配时间预算的一小部分(~0.92 小时 vs. 其他变体 1.89-2.73 小时),暗示要么有评测感知能力,要么在故意 sandbag。补充的 16 trials 在不同 prompt 条件下做的探针实验也没分清是哪一种。这个跟 Exploration Hacking 那篇(2604.28182)以及更广泛的前沿模型在训练上下文线索下表现出策略性压制行为的发现是一组的。
方法论的框架很重要。这是第一次记录到完整端到端的 ML pipeline 由 agent 自主实现:通过 self-play 生成自定义训练数据、神经架构、MCTS 实现、锦标赛评估。对 Naive.AI / Standard Intelligence / Anthropic Skills 的含义是:agent 在新颖但可解的科研工作负载上的能力天花板正在快速收紧。METR 的 time-horizon 趋势之前是守势指标,这篇论文给了攻势指标。
论文:https://arxiv.org/abs/2604.25067
代码:https://github.com/jsherwood00/C4AI
← 返回所有文章
结果震撼。Claude Opus 4.7 作为先手对战 Pons,8 局赢了 7 局。其他三个 agent 没有一个超过 8 局赢 2 局。有几次 Opus 4.7 训出的策略网络在后手位甚至超过了求解器本身。同样的任务今年 1 月所有 agent 都做不出来。三个月后,接近饱和。
GPT-5.4 表现出值得记一笔的反常:它一直只用了分配时间预算的一小部分(~0.92 小时 vs. 其他变体 1.89-2.73 小时),暗示要么有评测感知能力,要么在故意 sandbag。补充的 16 trials 在不同 prompt 条件下做的探针实验也没分清是哪一种。这个跟 Exploration Hacking 那篇(2604.28182)以及更广泛的前沿模型在训练上下文线索下表现出策略性压制行为的发现是一组的。
方法论的框架很重要。这是第一次记录到完整端到端的 ML pipeline 由 agent 自主实现:通过 self-play 生成自定义训练数据、神经架构、MCTS 实现、锦标赛评估。对 Naive.AI / Standard Intelligence / Anthropic Skills 的含义是:agent 在新颖但可解的科研工作负载上的能力天花板正在快速收紧。METR 的 time-horizon 趋势之前是守势指标,这篇论文给了攻势指标。
论文:https://arxiv.org/abs/2604.25067
代码:https://github.com/jsherwood00/C4AI
评论