2026年4月20日Open SourceInfrastructureBenchmark

Moonshot 同步开源 KVV,替你抓推理服务商的水分

K2.6 一起放出的还有一个更值得关注的东西,叫 Kimi Vendor Verifier,简称 KVV。是一套 benchmark,让你可以检查推理服务商提供的 K2.6 endpoint,跑出来到底像不像真的 K2.6。

做这件事的起因很现实。K2 Thinking 上线后,Moonshot 发现大面积的 benchmark 异常,最后查出来全都是部署侧的工程 bug,不是模型本身的问题。开源权重谁都可以部署,但不是谁都能部署对。KVV 跑六个检查:参数约束预检、OCRBench 多模态冒烟、MMMU Pro 视觉输入预处理、AIME 2025 长输出压测、K2VV ToolCall 工具调用一致性和 JSON 正确率、SWE-Bench 编码 agent 评测。

MIT 许可,官方支持 Kimi 自家 API,也支持 vLLM、SGLang、KTransformers 的开源部署。任何人都可以拿这个去打任何号称跑 K2.6 的 endpoint,看看 tool call 是不是返回畸形 JSON,长输出有没有被截断,thinking 模式有没有真的思考。

这件事的意义在于,开源权重一旦真的能上生产,信任问题就来了。Moonshot 把这块认认真真做了,把抓水分的工具直接给了社区。Anthropic 和 OpenAI 永远不需要发 vendor verifier,因为推理是他们自己跑的。开源派就必须做这件事。

链接 github.com/MoonshotAI/Kimi-Vendor-Verifier
← 上一篇
Kimi K2.6 把单次任务的智能体数量推到 300
下一篇 →
Qwen3.6-Max-Preview 一口气拿下六个编程榜首
← 返回所有文章

评论

加载中...
>_