2026年3月31日Open Source Agents Infrastructure

Qwen3.5-Omni：能看、能听、能说 36 种语言的 Agent

阿里 Qwen 团队 3 月 30 日发布了 Qwen3.5-Omni，这不是小更新。这是一个完全多模态模型，同时处理文本、图像、音频和视频——然后用 36 种语言实时对话。语音识别覆盖 113 种语言和方言，上一代只有 19 种。模型有三个尺寸：Plus、Flash 和 Light，都支持 256K token 上下文。训练数据超过 1 亿小时的视听内容。

架构是双组件设计。Thinker 负责跨所有输入模态的推理，用 Hybrid-Attention MoE 设计。Talker 把推理结果转换成流式语音 token。这不是「把 TTS 贴到 LLM 上」——两个组件原生端到端工作。Qwen 声称在基准测试上拿了 215 个 SOTA，在 36 个音频和视听任务中的 32 个上超过了 Gemini 2.5 Pro 和 GPT-4o。

两个功能对 agent 开发者特别重要。第一，语义打断：模型能区分「嗯」和真正想插话，这样语音 agent 不会因为有人咳嗽就停下来。第二，音频对话期间的原生工具调用——模型可以在保持语音对话的同时搜索网页、调 API、执行函数。这就是语音 agent 三件套：看、听、做。

模型完全开源在 GitHub（github.com/QwenLM/Qwen3-Omni），已经在 Ollama 上可用。对任何做多模态 agent 的人来说，这是目前最强的开源选项。Ollama 的 MLX 集成同一天发布，展示模型选的就是 Qwen3.5-35B，这不是巧合。

https://qwen.ai/blog?id=qwen3.5
https://github.com/QwenLM/Qwen3-Omni

← 上一篇

Ollama 切换到 MLX，本地 Agent 速度翻倍

GitHub 每日之星 — 2026年04月01日

← 返回所有文章

加载中...

Qwen3.5-Omni：能看、能听、能说 36 种语言的 Agent

更多文章

评论