SpecEyes:投機的知覚によりエージェント型マルチモーダルLLMを3.35倍高速化
SpecEyesは、エージェント型マルチモーダルLLMを最大3.35倍高速化しつつ、精度を維持または向上(最大+6.7%)させる新しい研究フレームワークです。arXivで公開され、HuggingFaceで64件のアップボートを獲得してトレンド入り。軽量なビジョン言語モデルが視覚入力をスクリーニングし、必要な場合にのみ強力なツール使用モデルに委譲する投機的知覚・計画手法を導入しています。
このフレームワークは、オラクルラベルなしでモデル信頼度を定量化する回答分離性に基づく認知ゲーティングメカニズムを使用します。異種並列ファネルが小型モデルのステートレスな並行性を活用し、大型モデルのステートフルなシリアル実行をマスクすることで、システムスループットを最大化します。GUIナビゲーションやウェブブラウジングなどのエージェント型ビジュアルタスクで効果を発揮します。
https://arxiv.org/abs/2503.xxxxx
← すべての記事に戻る
このフレームワークは、オラクルラベルなしでモデル信頼度を定量化する回答分離性に基づく認知ゲーティングメカニズムを使用します。異種並列ファネルが小型モデルのステートレスな並行性を活用し、大型モデルのステートフルなシリアル実行をマスクすることで、システムスループットを最大化します。GUIナビゲーションやウェブブラウジングなどのエージェント型ビジュアルタスクで効果を発揮します。
https://arxiv.org/abs/2503.xxxxx
Comments