April 3, 2026ResearchRLSkills

SKILL0:エージェントに補助輪を外させる方法

現在のすべてのエージェントフレームワークは同じパターンだ。実行時にスキルを渡し、正しく使われることを祈る。問題は明白で、検索ノイズが無関係なガイダンスを持ち込み、注入されたスキルコンテンツがコンテキストを膨らませ、モデルは何も学習しない。渡された指示に従っているだけだ。

浙江大学と美団のSKILL0はこのロジックを逆転させる。推論時にスキルを与えるのではなく、訓練中にモデルのパラメータにスキルを焼き込む。フレームワークは完全なスキルコンテキストから始まり、段階的に除去する。動的カリキュラムが各スキルファイルが現在のポリシーに実際に役立っているかを評価し、役立っていなければ除去する。訓練終了時、エージェントはゼロショットで動作する。

結果は説得力がある。ALFWorldで+9.7%、Search-QAで+6.6%(標準RLベースライン比)、コンテキストはステップあたり0.5Kトークン未満。比較として、一般的なスキル拡張エージェントはスキルコンテキストだけでステップあたり2-4Kトークンを使用する。

エージェントの能力とコストの根本的な矛盾を解決する。スキルはエージェントを賢くするが高コストにもする。スキルを重みに内在化できれば、トークン税なしで知能を得られる。

HuggingFaceで62票。コードはgithub.com/ZJU-REAL/SkillZero。

https://arxiv.org/abs/2604.02268
← Previous
Codenotary AgentMon:AIエージェントを誰が監視するのか
Next →
Miravoice、AIエージェントで電話調査員を置き換えるため630万ドル調達
← Back to all articles

Comments

Loading...
>_