2026年6月8日Research Infrastructure Agents

Vortex：agent写出了比人更快的注意力内核

这篇里最该让你坐直的一点是：AI agent自动生成的稀疏注意力算法，吞吐量比全注意力高了最多3.46倍，精度还没掉。不是人类研究员手调内核，而是agent在设计空间里自己搜，自己找到了赢的方案。

Vortex就是让这件事成为可能的系统。它是个稀疏注意力的serving框架，有Python前端、一套张量抽象、还有能插进真实LLM serving栈的后端。核心目的是把试一个新的稀疏注意力点子的工程成本压到极低，让人类研究员和agent都能快速做几十个变体，而不是每个内核磨上几周。当你把迭代循环弄得足够便宜，agent就能直接在空间里硬搜，而事情正是这么发生的。

数字落在真模型上，不是玩具：GLM-4.7-Flash上快4.7倍，2290亿参数的MiniMax-M2.7上快1.37倍，跑在英伟达B200上。这是生产规模的长上下文serving，靠机器发现的算法实打实变便宜了。

这跟那条自我改进的agent的线是一回事，RHO修自己的工具箱，MLEvolve进化得比AlphaEvolve还狠。前沿正在悄悄从人设计系统、模型在里面跑，挪向模型也来设计系统。论文：arxiv.org/abs/2606.06453

← 上一篇

一个会自己修工具箱的agent，连打分员都不用

超级用户日报: 2026年6月8日

← 返回所有文章

加载中...

Vortex：agent写出了比人更快的注意力内核

相关文章

评论