SkyPilotがKarpathyのAutoresearchをスケール:AIエージェントが16GPU上で910実験を自律実行
SkyPilotは3月18日、AIコーディングエージェントに単一マシンではなくGPUクラスターへのアクセスを与えるとどうなるかの結果を公開した。実験はAndrej KarpathyのAutoresearchプロジェクト——AIエージェントがコードを編集し、実験を実行し、結果を反復することでニューラルネットワーク訓練スクリプトを自律的に改善するもの——をスケールしている。
結果は顕著だ。Claude Codeが16GPU上で8時間に910回の実験を完了した。単一GPUでは1時間あたり約10回だったのと比較すると劇的な向上である。検証指標はbits-per-byteで1.003から0.974に改善(2.87%の向上)し、逐次ベースラインと比較して同等の結果に到達するまでの9倍の高速化を達成した。
最も注目すべきは、エージェントが創発的な行動を示したことだ。異なるGPUタイプ(H100とH200)へのアクセスがあることを独自に発見し、明示的な指示なしに二層の検証戦略を開発した。エージェントはクラスターをプロビジョニングし、YAML設定で並列実験をサブミットし、結果を監視し、勝利した変更を自律的にコミットする。
SkyPilotはエージェントがKubernetes、AWS、GCP、Azure上でGPUクラスターを起動・管理できるオープンソースツールである。エージェント指示やYAMLテンプレートを含む完全なセットアップはhttps://github.com/skypilot-org/skypilotのexamples/autoresearchディレクトリで利用可能だ。
これはエージェントエコシステムにおける重要なインフラニーズを実証している。人間の介入なしに計算リソースを自己プロビジョニングし、独自の実験をスケールできるエージェントだ。ブログ記事:https://blog.skypilot.co/scaling-autoresearch/
← すべての記事に戻る
結果は顕著だ。Claude Codeが16GPU上で8時間に910回の実験を完了した。単一GPUでは1時間あたり約10回だったのと比較すると劇的な向上である。検証指標はbits-per-byteで1.003から0.974に改善(2.87%の向上)し、逐次ベースラインと比較して同等の結果に到達するまでの9倍の高速化を達成した。
最も注目すべきは、エージェントが創発的な行動を示したことだ。異なるGPUタイプ(H100とH200)へのアクセスがあることを独自に発見し、明示的な指示なしに二層の検証戦略を開発した。エージェントはクラスターをプロビジョニングし、YAML設定で並列実験をサブミットし、結果を監視し、勝利した変更を自律的にコミットする。
SkyPilotはエージェントがKubernetes、AWS、GCP、Azure上でGPUクラスターを起動・管理できるオープンソースツールである。エージェント指示やYAMLテンプレートを含む完全なセットアップはhttps://github.com/skypilot-org/skypilotのexamples/autoresearchディレクトリで利用可能だ。
これはエージェントエコシステムにおける重要なインフラニーズを実証している。人間の介入なしに計算リソースを自己プロビジョニングし、独自の実験をスケールできるエージェントだ。ブログ記事:https://blog.skypilot.co/scaling-autoresearch/
Comments