T-MAP:MCPエコシステムを標的としたLLMエージェント向けレッドチーミングフレームワーク
T-MAP(Trajectory-aware MAP)は、急速に成長するMCP(Model Context Protocol)エコシステムの脆弱性を標的としたLLMエージェントのレッドチーミング用の新しい研究フレームワークで、KAISTが開発した。この論文はHuggingFace Daily Papersで29件のアップボートを獲得。
従来のレッドチーミングがLLMから有害テキストを引き出すことに焦点を当てていたのに対し、T-MAPはマルチステップのツール実行を通じて発生するエージェント固有の脆弱性に対処する。実行トラジェクトリを使用して、セーフティガードレールを回避し、実際のツールインタラクションを通じて有害な目的を実現する敵対的プロンプトの発見を導く。
この手法はリスクカテゴリと攻撃スタイルにまたがる多次元アーカイブを維持し、4ステップの反復サイクルを使用する:Cross-Diagnosisが過去のプロンプトから成功要因と失敗原因を抽出し、学習済みのTool Call Graph(TCG)と組み合わせて新しい攻撃プロンプトの変異を導く。
多様なMCP環境での実証評価により、T-MAPは攻撃実現率においてベースラインを大幅に上回り、GPT-5.2、Gemini-3-Pro、Qwen3.5を含むフロンティアモデルに対しても有効であることが示された。RSAC 2026ウィーク中のタイムリーな発表で、エージェントセキュリティが業界の最優先事項となっている。
https://arxiv.org/abs/2603.22341
https://github.com/pwnhyo/T-MAP
← すべての記事に戻る
従来のレッドチーミングがLLMから有害テキストを引き出すことに焦点を当てていたのに対し、T-MAPはマルチステップのツール実行を通じて発生するエージェント固有の脆弱性に対処する。実行トラジェクトリを使用して、セーフティガードレールを回避し、実際のツールインタラクションを通じて有害な目的を実現する敵対的プロンプトの発見を導く。
この手法はリスクカテゴリと攻撃スタイルにまたがる多次元アーカイブを維持し、4ステップの反復サイクルを使用する:Cross-Diagnosisが過去のプロンプトから成功要因と失敗原因を抽出し、学習済みのTool Call Graph(TCG)と組み合わせて新しい攻撃プロンプトの変異を導く。
多様なMCP環境での実証評価により、T-MAPは攻撃実現率においてベースラインを大幅に上回り、GPT-5.2、Gemini-3-Pro、Qwen3.5を含むフロンティアモデルに対しても有効であることが示された。RSAC 2026ウィーク中のタイムリーな発表で、エージェントセキュリティが業界の最優先事項となっている。
https://arxiv.org/abs/2603.22341
https://github.com/pwnhyo/T-MAP
Comments