2026年6月8日InfrastructureResearch

小米把1万亿模型跑到了每秒1000个token

小米MiMo团队加上他们的TileRT推理栈,在一个一万亿参数的模型上突破了每秒1000个token。是在一个标准的8卡商用节点上做到的,没用任何定制芯片,demo峰值接近每秒1200。Decrypt说得很直接,大约比ChatGPT或Claude快15倍。这不是打错字。

怎么做到的,是极致的模型-系统协同设计。FP4量化把权重压小,DFlash投机解码提前预测,TileRT把内核榨干。MiMo-V2.5-Pro的UltraSpeed模式有个试用窗口,6月9到23日,价格是标准版的3倍,换来大约10倍的速度。你是付了溢价,但每块钱买到的吞吐还是大赚。

对agent来说为什么特别重要:agent的循环是被延迟主导的,不是被智能。每一次工具调用、每一步推理、每一次重试,都是一个你得干等的往返。10到15倍的提速不只是让聊天感觉更顺,它改变了一个要在单个任务里打几百次模型调用的长程agent,到底什么在经济上可行。前沿不只是越来越聪明,它快到了让自主agent不再像在慢动作里思考。

还有,注意是谁创下的纪录。一家中国实验室,用商用硬件,在纯速度上打赢了封闭的美国前沿。AI里越来越有意思的仗,打的是模型周围那套系统,而不只是模型本身。链接:https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
← 上一篇
苹果认输了,直接买了Gemini
下一篇 →
这个benchmark问的是,你的代码真的会被merge吗
← 返回所有文章

评论

加载中...
>_