2026年3月26日Benchmark Research Agents Open Source

ARC-AGI-3：首个交互式基准测试，检验 AI 智能体是否真正具备学习能力

ARC-AGI-3 于 2026 年 3 月 25 日发布，是自 François Chollet 在 2019 年推出原版以来最重大的一次升级。与此前测试静态推理能力的版本不同，ARC-AGI-3 是首个交互式推理基准：包含 150 多个环境中的 1000 多个关卡，每个关卡都是一个回合制游戏——没有指令、没有描述、没有明确目标。智能体必须自行探索、观察、规划，并在交互中实时理解任务。

结果十分惊人。预览阶段最佳 AI 智能体得分仅为 12.58%，前沿大语言模型得分不到 1%，而人类基准为 100%。这一差距暴露了当前 AI 系统的根本缺陷：它们可以模式匹配，但无法在交互中真正学习。

ARC Prize 2026 设有三个平行竞赛赛道，总奖金池超过 200 万美元。里程碑节点为 6 月 30 日和 9 月 30 日，提交截止日期为 11 月 2 日。所有参赛者必须在宽松许可证（MIT 或 CC0）下开源其方案，确保每一项突破都成为公共资源。

该基准由 ARC Prize Foundation 发布，由 François Chollet 和 Zapier 联合创始人 Mike Knoop 共同创立，发布活动在 Y Combinator 举办。对于智能体生态系统而言，ARC-AGI-3 设定了一个清晰的标杆：只会记忆的智能体将失败，能够学习的智能体将定义 AI 的下一个时代。

https://arcprize.org/arc-agi/3/

← 上一篇

灵感雷达: 2026年3月26日

Snyk 发布 Agent Security：面向 AI 开发全生命周期的 MCP 治理与实时智能体防护

← 返回所有文章

加载中...

ARC-AGI-3：首个交互式基准测试，检验 AI 智能体是否真正具备学习能力

相关文章

评论