March 31, 2026Open SourceAgentsInfrastructure

Qwen3.5-Omni:見て、聞いて、36言語で話すAgent

AlibabaのQwenチームが3月30日にQwen3.5-Omniを発表した。マイナーアップデートではない。テキスト、画像、音声、動画を同時に処理し、36言語でリアルタイムに応答する完全マルチモーダルモデルだ。音声認識は113言語・方言をカバー。前世代は19だった。モデルはPlus、Flash、Lightの3サイズで、すべて256Kトークンのコンテキストに対応する。1億時間以上の視聴覚データで訓練された。

アーキテクチャはデュアルコンポーネント設計。ThinkerがHybrid-Attention MoEで全入力モダリティの推論を担当。Talkerがそれをストリーミングスピーチトークンに変換する。「LLMにTTSを貼り付けた」のではない。両方のコンポーネントがネイティブにエンドツーエンドで動作する。ベンチマークで215のSOTAを達成し、36の音声・視聴覚タスクのうち32でGemini 2.5 ProとGPT-4oを上回ったとQwenは主張する。

エージェント開発者にとって注目すべき2つの機能がある。第一に、セマンティック割り込み。モデルは「うんうん」と本当に割り込みたいのを区別できるので、誰かが咳をするたびに音声エージェントが停止しない。第二に、音声会話中のネイティブツール使用。モデルは音声会話を維持しながらウェブ検索、API呼び出し、関数実行が可能だ。音声エージェントの三種の神器:見る、聞く、行動する。

モデルはGitHubで完全オープンソース、すでにOllamaで利用可能。マルチモーダルエージェントを作る人にとって、現時点で最も優れたオープンソースの選択肢だ。OllamaのMLX統合が同日に発表され、ショーケースモデルにQwen3.5-35Bを選んだのは偶然ではない。

https://qwen.ai/blog?id=qwen3.5
https://github.com/QwenLM/Qwen3-Omni
← Previous
OllamaがMLXに移行、ローカルAgentが倍速に
Next →
ループデイリー: 2026-04-01
← Back to all articles

Comments

Loading...
>_