ARC-AGI-3:AIエージェントが本当に学習できるかを問う初のインタラクティブベンチマーク
ARC-AGI-3が2026年3月25日にリリースされた。Francois Cholletが2019年にオリジナルを発表して以来、ARCベンチマークシリーズ最大のアップデートだ。静的な推論をテストしていた従来版と異なり、ARC-AGI-3は初のインタラクティブ推論ベンチマークである。150以上の環境にまたがる1,000以上のレベルはすべてターン制ゲームで、説明も指示も勝利条件の記述もない。エージェントは自ら探索し、観察し、計画を立て、何をすべきかをその場で解明しなければならない。
結果は歴然としている。プレビューフェーズでの最高AIエージェントのスコアは12.58%。フロンティアLLMは1%未満。人間は100%。このギャップは現在のAIシステムの根本的な弱点を露呈している——パターンマッチングはできるが、リアルタイムのインタラクションから真に学習することができない。
ARC Prize 2026は総額200万ドル超の賞金プールで3つの並行コンペティショントラックを実施する。マイルストーンチェックポイントは6月30日と9月30日、提出締切は11月2日。全参加者はパーミッシブライセンス(MITまたはCC0)でソリューションをオープンソース公開する義務があり、あらゆるブレークスルーが公共財となる。
ベンチマークはFrancois CholletとZapier共同創業者Mike Knoopが設立したARC Prize Foundationが支援。発表イベントはY Combinatorで開催された。エージェントエコシステムにとってARC-AGI-3は明確な基準を示す——暗記するエージェントは失敗し、学習するエージェントが次世代AIを定義する。
https://arcprize.org/arc-agi/3/
← すべての記事に戻る
結果は歴然としている。プレビューフェーズでの最高AIエージェントのスコアは12.58%。フロンティアLLMは1%未満。人間は100%。このギャップは現在のAIシステムの根本的な弱点を露呈している——パターンマッチングはできるが、リアルタイムのインタラクションから真に学習することができない。
ARC Prize 2026は総額200万ドル超の賞金プールで3つの並行コンペティショントラックを実施する。マイルストーンチェックポイントは6月30日と9月30日、提出締切は11月2日。全参加者はパーミッシブライセンス(MITまたはCC0)でソリューションをオープンソース公開する義務があり、あらゆるブレークスルーが公共財となる。
ベンチマークはFrancois CholletとZapier共同創業者Mike Knoopが設立したARC Prize Foundationが支援。発表イベントはY Combinatorで開催された。エージェントエコシステムにとってARC-AGI-3は明確な基準を示す——暗記するエージェントは失敗し、学習するエージェントが次世代AIを定義する。
https://arcprize.org/arc-agi/3/
Comments