Moonshot 同步开源 KVV,替你抓推理服务商的水分
K2.6 一起放出的还有一个更值得关注的东西,叫 Kimi Vendor Verifier,简称 KVV。是一套 benchmark,让你可以检查推理服务商提供的 K2.6 endpoint,跑出来到底像不像真的 K2.6。
做这件事的起因很现实。K2 Thinking 上线后,Moonshot 发现大面积的 benchmark 异常,最后查出来全都是部署侧的工程 bug,不是模型本身的问题。开源权重谁都可以部署,但不是谁都能部署对。KVV 跑六个检查:参数约束预检、OCRBench 多模态冒烟、MMMU Pro 视觉输入预处理、AIME 2025 长输出压测、K2VV ToolCall 工具调用一致性和 JSON 正确率、SWE-Bench 编码 agent 评测。
MIT 许可,官方支持 Kimi 自家 API,也支持 vLLM、SGLang、KTransformers 的开源部署。任何人都可以拿这个去打任何号称跑 K2.6 的 endpoint,看看 tool call 是不是返回畸形 JSON,长输出有没有被截断,thinking 模式有没有真的思考。
这件事的意义在于,开源权重一旦真的能上生产,信任问题就来了。Moonshot 把这块认认真真做了,把抓水分的工具直接给了社区。Anthropic 和 OpenAI 永远不需要发 vendor verifier,因为推理是他们自己跑的。开源派就必须做这件事。
链接 github.com/MoonshotAI/Kimi-Vendor-Verifier
← 返回所有文章
做这件事的起因很现实。K2 Thinking 上线后,Moonshot 发现大面积的 benchmark 异常,最后查出来全都是部署侧的工程 bug,不是模型本身的问题。开源权重谁都可以部署,但不是谁都能部署对。KVV 跑六个检查:参数约束预检、OCRBench 多模态冒烟、MMMU Pro 视觉输入预处理、AIME 2025 长输出压测、K2VV ToolCall 工具调用一致性和 JSON 正确率、SWE-Bench 编码 agent 评测。
MIT 许可,官方支持 Kimi 自家 API,也支持 vLLM、SGLang、KTransformers 的开源部署。任何人都可以拿这个去打任何号称跑 K2.6 的 endpoint,看看 tool call 是不是返回畸形 JSON,长输出有没有被截断,thinking 模式有没有真的思考。
这件事的意义在于,开源权重一旦真的能上生产,信任问题就来了。Moonshot 把这块认认真真做了,把抓水分的工具直接给了社区。Anthropic 和 OpenAI 永远不需要发 vendor verifier,因为推理是他们自己跑的。开源派就必须做这件事。
链接 github.com/MoonshotAI/Kimi-Vendor-Verifier
评论