Qwen3.6-27B 27B稠密模型干翻去年397B旗舰
阿里Qwen团队4月22日丢出Qwen3.6-27B,Apache 2.0协议,标题数据有点狠。SWE-bench Verified拿到77.2,全靠27B稠密参数。上一代旗舰Qwen3.5-397B-A17B(硬盘要807GB)在所有主要编程benchmark上都被这个55.6GB的小模型反超。Terminal-Bench 2.0飙到59.3,跟Claude 4.5 Opus打平。SkillsBench Avg5从27.2跳到48.2。
原生上下文262144 token,用YaRN能扩到101万。架构是Gated DeltaNet加Gated Attention的混合,支持multi-token prediction。最有意思的agent特性是preserve_thinking——多轮对话里推理上下文能保留下来,这样在长agent循环里就不会反复重建思维链浪费token。
更深一层的故事是稠密vs MoE的钟摆又荡回来了。27B稠密单台8xH100就能服务,397B MoE做不到。对自部署用户、agent团队、不想租集群但想要旗舰级编程能力的人来说,这就是新的开源默认选择。视觉能力也带上了,MMMU 82.9,AndroidWorld 70.3。链接:https://qwen.ai/blog?id=qwen3.6-27b · 权重:https://huggingface.co/Qwen/Qwen3.6-27B
← 返回所有文章
原生上下文262144 token,用YaRN能扩到101万。架构是Gated DeltaNet加Gated Attention的混合,支持multi-token prediction。最有意思的agent特性是preserve_thinking——多轮对话里推理上下文能保留下来,这样在长agent循环里就不会反复重建思维链浪费token。
更深一层的故事是稠密vs MoE的钟摆又荡回来了。27B稠密单台8xH100就能服务,397B MoE做不到。对自部署用户、agent团队、不想租集群但想要旗舰级编程能力的人来说,这就是新的开源默认选择。视觉能力也带上了,MMMU 82.9,AndroidWorld 70.3。链接:https://qwen.ai/blog?id=qwen3.6-27b · 权重:https://huggingface.co/Qwen/Qwen3.6-27B
评论