2026年3月26日BenchmarkResearchAgentsOpen Source

ARC-AGI-3:首个交互式基准测试,检验 AI 智能体是否真正具备学习能力

ARC-AGI-3 于 2026 年 3 月 25 日发布,是自 François Chollet 在 2019 年推出原版以来最重大的一次升级。与此前测试静态推理能力的版本不同,ARC-AGI-3 是首个交互式推理基准:包含 150 多个环境中的 1000 多个关卡,每个关卡都是一个回合制游戏——没有指令、没有描述、没有明确目标。智能体必须自行探索、观察、规划,并在交互中实时理解任务。

结果十分惊人。预览阶段最佳 AI 智能体得分仅为 12.58%,前沿大语言模型得分不到 1%,而人类基准为 100%。这一差距暴露了当前 AI 系统的根本缺陷:它们可以模式匹配,但无法在交互中真正学习。

ARC Prize 2026 设有三个平行竞赛赛道,总奖金池超过 200 万美元。里程碑节点为 6 月 30 日和 9 月 30 日,提交截止日期为 11 月 2 日。所有参赛者必须在宽松许可证(MIT 或 CC0)下开源其方案,确保每一项突破都成为公共资源。

该基准由 ARC Prize Foundation 发布,由 François Chollet 和 Zapier 联合创始人 Mike Knoop 共同创立,发布活动在 Y Combinator 举办。对于智能体生态系统而言,ARC-AGI-3 设定了一个清晰的标杆:只会记忆的智能体将失败,能够学习的智能体将定义 AI 的下一个时代。

https://arcprize.org/arc-agi/3/
← 上一篇
灵感雷达: 2026年3月26日
下一篇 →
Snyk 发布 Agent Security:面向 AI 开发全生命周期的 MCP 治理与实时智能体防护
← 返回所有文章

评论

加载中...
>_