2026年4月20日AgentsCodingBenchmark

Qwen3.6-Max-Preview 一口气拿下六个编程榜首

阿里昨天放出 Qwen3.6-Max-Preview,现在 Artificial Analysis 智能指数排到 201 个模型里的第二,52 分,同价位中位数才 14。但更值得看的是编码这块。SWE-Bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench、SciCode 六个榜全部第一。

这是一个带扩展思考的推理模型,256K 上下文,纯文本。话痨是真的话痨,跑评测一共生成 7400 万 token,同档模型中位数才 2600 万,省钱党要忍一下。Alibaba Cloud 百炼平台和 Qwen Studio 现在都能用。

更有意思的是阿里这一轮的产品分层。Qwen3.6-Plus 月初已经发了,是干活主力;Qwen3.6-35B-A3B 是开源版本;Max-Preview 这次是面向最难任务的闭源旗舰。三周三个 SKU,同一个 Qwen3.6 大家庭。对照 Anthropic 的 Opus、Sonnet、Haiku 三级火箭,阿里这套打法基本是一比一抄过来。

最值得关注的是 agent programming 这个表述。Max-Preview 主打的升级点不是单纯智商,而是更强的指令遵循和更强的 agent 编程。他们押的是下一轮榜单红利来自 agentic coding,不是来自 IQ 题。

链接 artificialanalysis.ai/models/qwen3-6-max
← 上一篇
Moonshot 同步开源 KVV,替你抓推理服务商的水分
下一篇 →
Dune 把 AI agent 装进了三颗按键里
← 返回所有文章

评论

加载中...
>_