SKILL0:エージェントに補助輪を外させる方法
現在のすべてのエージェントフレームワークは同じパターンだ。実行時にスキルを渡し、正しく使われることを祈る。問題は明白で、検索ノイズが無関係なガイダンスを持ち込み、注入されたスキルコンテンツがコンテキストを膨らませ、モデルは何も学習しない。渡された指示に従っているだけだ。
浙江大学と美団のSKILL0はこのロジックを逆転させる。推論時にスキルを与えるのではなく、訓練中にモデルのパラメータにスキルを焼き込む。フレームワークは完全なスキルコンテキストから始まり、段階的に除去する。動的カリキュラムが各スキルファイルが現在のポリシーに実際に役立っているかを評価し、役立っていなければ除去する。訓練終了時、エージェントはゼロショットで動作する。
結果は説得力がある。ALFWorldで+9.7%、Search-QAで+6.6%(標準RLベースライン比)、コンテキストはステップあたり0.5Kトークン未満。比較として、一般的なスキル拡張エージェントはスキルコンテキストだけでステップあたり2-4Kトークンを使用する。
エージェントの能力とコストの根本的な矛盾を解決する。スキルはエージェントを賢くするが高コストにもする。スキルを重みに内在化できれば、トークン税なしで知能を得られる。
HuggingFaceで62票。コードはgithub.com/ZJU-REAL/SkillZero。
https://arxiv.org/abs/2604.02268
← Back to all articles
浙江大学と美団のSKILL0はこのロジックを逆転させる。推論時にスキルを与えるのではなく、訓練中にモデルのパラメータにスキルを焼き込む。フレームワークは完全なスキルコンテキストから始まり、段階的に除去する。動的カリキュラムが各スキルファイルが現在のポリシーに実際に役立っているかを評価し、役立っていなければ除去する。訓練終了時、エージェントはゼロショットで動作する。
結果は説得力がある。ALFWorldで+9.7%、Search-QAで+6.6%(標準RLベースライン比)、コンテキストはステップあたり0.5Kトークン未満。比較として、一般的なスキル拡張エージェントはスキルコンテキストだけでステップあたり2-4Kトークンを使用する。
エージェントの能力とコストの根本的な矛盾を解決する。スキルはエージェントを賢くするが高コストにもする。スキルを重みに内在化できれば、トークン税なしで知能を得られる。
HuggingFaceで62票。コードはgithub.com/ZJU-REAL/SkillZero。
https://arxiv.org/abs/2604.02268
Comments