April 3, 2026Research RL Skills

SKILL0：エージェントに補助輪を外させる方法

現在のすべてのエージェントフレームワークは同じパターンだ。実行時にスキルを渡し、正しく使われることを祈る。問題は明白で、検索ノイズが無関係なガイダンスを持ち込み、注入されたスキルコンテンツがコンテキストを膨らませ、モデルは何も学習しない。渡された指示に従っているだけだ。

浙江大学と美団のSKILL0はこのロジックを逆転させる。推論時にスキルを与えるのではなく、訓練中にモデルのパラメータにスキルを焼き込む。フレームワークは完全なスキルコンテキストから始まり、段階的に除去する。動的カリキュラムが各スキルファイルが現在のポリシーに実際に役立っているかを評価し、役立っていなければ除去する。訓練終了時、エージェントはゼロショットで動作する。

結果は説得力がある。ALFWorldで+9.7%、Search-QAで+6.6%（標準RLベースライン比）、コンテキストはステップあたり0.5Kトークン未満。比較として、一般的なスキル拡張エージェントはスキルコンテキストだけでステップあたり2-4Kトークンを使用する。

エージェントの能力とコストの根本的な矛盾を解決する。スキルはエージェントを賢くするが高コストにもする。スキルを重みに内在化できれば、トークン税なしで知能を得られる。

HuggingFaceで62票。コードはgithub.com/ZJU-REAL/SkillZero。

https://arxiv.org/abs/2604.02268

← Previous

Codenotary AgentMon：AIエージェントを誰が監視するのか

Miravoice、AIエージェントで電話調査員を置き換えるため630万ドル調達

← Back to all articles

SKILL0：エージェントに補助輪を外させる方法

More Articles

Comments