2026年6月9日Infrastructure Research

小米把1万亿模型跑到了每秒1000个token

小米MiMo团队加上他们的TileRT推理栈，在一个一万亿参数的模型上突破了每秒1000个token。是在一个标准的8卡商用节点上做到的，没用任何定制芯片，demo峰值接近每秒1200。Decrypt说得很直接，大约比ChatGPT或Claude快15倍。这不是打错字。

怎么做到的，是极致的模型-系统协同设计。FP4量化把权重压小，DFlash投机解码提前预测，TileRT把内核榨干。MiMo-V2.5-Pro的UltraSpeed模式有个试用窗口，6月9到23日，价格是标准版的3倍，换来大约10倍的速度。你是付了溢价，但每块钱买到的吞吐还是大赚。

对agent来说为什么特别重要：agent的循环是被延迟主导的，不是被智能。每一次工具调用、每一步推理、每一次重试，都是一个你得干等的往返。10到15倍的提速不只是让聊天感觉更顺，它改变了一个要在单个任务里打几百次模型调用的长程agent，到底什么在经济上可行。前沿不只是越来越聪明，它快到了让自主agent不再像在慢动作里思考。

还有，注意是谁创下的纪录。一家中国实验室，用商用硬件，在纯速度上打赢了封闭的美国前沿。AI里越来越有意思的仗，打的是模型周围那套系统，而不只是模型本身。链接：https://mimo.xiaomi.com/blog/mimo-tilert-1000tps

← 上一篇

苹果认输了，直接买了Gemini

这个benchmark问的是，你的代码真的会被merge吗

← 返回所有文章

加载中...

小米把1万亿模型跑到了每秒1000个token

相关文章

评论