Qwen3.5-Omni:能看、能听、能说 36 种语言的 Agent
阿里 Qwen 团队 3 月 30 日发布了 Qwen3.5-Omni,这不是小更新。这是一个完全多模态模型,同时处理文本、图像、音频和视频——然后用 36 种语言实时对话。语音识别覆盖 113 种语言和方言,上一代只有 19 种。模型有三个尺寸:Plus、Flash 和 Light,都支持 256K token 上下文。训练数据超过 1 亿小时的视听内容。
架构是双组件设计。Thinker 负责跨所有输入模态的推理,用 Hybrid-Attention MoE 设计。Talker 把推理结果转换成流式语音 token。这不是「把 TTS 贴到 LLM 上」——两个组件原生端到端工作。Qwen 声称在基准测试上拿了 215 个 SOTA,在 36 个音频和视听任务中的 32 个上超过了 Gemini 2.5 Pro 和 GPT-4o。
两个功能对 agent 开发者特别重要。第一,语义打断:模型能区分「嗯」和真正想插话,这样语音 agent 不会因为有人咳嗽就停下来。第二,音频对话期间的原生工具调用——模型可以在保持语音对话的同时搜索网页、调 API、执行函数。这就是语音 agent 三件套:看、听、做。
模型完全开源在 GitHub(github.com/QwenLM/Qwen3-Omni),已经在 Ollama 上可用。对任何做多模态 agent 的人来说,这是目前最强的开源选项。Ollama 的 MLX 集成同一天发布,展示模型选的就是 Qwen3.5-35B,这不是巧合。
https://qwen.ai/blog?id=qwen3.5
https://github.com/QwenLM/Qwen3-Omni
← 返回所有文章
架构是双组件设计。Thinker 负责跨所有输入模态的推理,用 Hybrid-Attention MoE 设计。Talker 把推理结果转换成流式语音 token。这不是「把 TTS 贴到 LLM 上」——两个组件原生端到端工作。Qwen 声称在基准测试上拿了 215 个 SOTA,在 36 个音频和视听任务中的 32 个上超过了 Gemini 2.5 Pro 和 GPT-4o。
两个功能对 agent 开发者特别重要。第一,语义打断:模型能区分「嗯」和真正想插话,这样语音 agent 不会因为有人咳嗽就停下来。第二,音频对话期间的原生工具调用——模型可以在保持语音对话的同时搜索网页、调 API、执行函数。这就是语音 agent 三件套:看、听、做。
模型完全开源在 GitHub(github.com/QwenLM/Qwen3-Omni),已经在 Ollama 上可用。对任何做多模态 agent 的人来说,这是目前最强的开源选项。Ollama 的 MLX 集成同一天发布,展示模型选的就是 Qwen3.5-35B,这不是巧合。
https://qwen.ai/blog?id=qwen3.5
https://github.com/QwenLM/Qwen3-Omni
评论