2026年4月21日Open Source Infrastructure Benchmark

Moonshot 同步开源 KVV，替你抓推理服务商的水分

K2.6 一起放出的还有一个更值得关注的东西，叫 Kimi Vendor Verifier，简称 KVV。是一套 benchmark，让你可以检查推理服务商提供的 K2.6 endpoint，跑出来到底像不像真的 K2.6。

做这件事的起因很现实。K2 Thinking 上线后，Moonshot 发现大面积的 benchmark 异常，最后查出来全都是部署侧的工程 bug，不是模型本身的问题。开源权重谁都可以部署，但不是谁都能部署对。KVV 跑六个检查：参数约束预检、OCRBench 多模态冒烟、MMMU Pro 视觉输入预处理、AIME 2025 长输出压测、K2VV ToolCall 工具调用一致性和 JSON 正确率、SWE-Bench 编码 agent 评测。

MIT 许可，官方支持 Kimi 自家 API，也支持 vLLM、SGLang、KTransformers 的开源部署。任何人都可以拿这个去打任何号称跑 K2.6 的 endpoint，看看 tool call 是不是返回畸形 JSON，长输出有没有被截断，thinking 模式有没有真的思考。

这件事的意义在于，开源权重一旦真的能上生产，信任问题就来了。Moonshot 把这块认认真真做了，把抓水分的工具直接给了社区。Anthropic 和 OpenAI 永远不需要发 vendor verifier，因为推理是他们自己跑的。开源派就必须做这件事。

链接 github.com/MoonshotAI/Kimi-Vendor-Verifier

← 上一篇

Kimi K2.6 把单次任务的智能体数量推到 300

Qwen3.6-Max-Preview 一口气拿下六个编程榜首

← 返回所有文章

加载中...

Moonshot 同步开源 KVV，替你抓推理服务商的水分

相关文章

评论