Vortex:agent写出了比人更快的注意力内核
这篇里最该让你坐直的一点是:AI agent自动生成的稀疏注意力算法,吞吐量比全注意力高了最多3.46倍,精度还没掉。不是人类研究员手调内核,而是agent在设计空间里自己搜,自己找到了赢的方案。
Vortex就是让这件事成为可能的系统。它是个稀疏注意力的serving框架,有Python前端、一套张量抽象、还有能插进真实LLM serving栈的后端。核心目的是把试一个新的稀疏注意力点子的工程成本压到极低,让人类研究员和agent都能快速做几十个变体,而不是每个内核磨上几周。当你把迭代循环弄得足够便宜,agent就能直接在空间里硬搜,而事情正是这么发生的。
数字落在真模型上,不是玩具:GLM-4.7-Flash上快4.7倍,2290亿参数的MiniMax-M2.7上快1.37倍,跑在英伟达B200上。这是生产规模的长上下文serving,靠机器发现的算法实打实变便宜了。
这跟那条自我改进的agent的线是一回事,RHO修自己的工具箱,MLEvolve进化得比AlphaEvolve还狠。前沿正在悄悄从人设计系统、模型在里面跑,挪向模型也来设计系统。论文:arxiv.org/abs/2606.06453
← 返回所有文章
Vortex就是让这件事成为可能的系统。它是个稀疏注意力的serving框架,有Python前端、一套张量抽象、还有能插进真实LLM serving栈的后端。核心目的是把试一个新的稀疏注意力点子的工程成本压到极低,让人类研究员和agent都能快速做几十个变体,而不是每个内核磨上几周。当你把迭代循环弄得足够便宜,agent就能直接在空间里硬搜,而事情正是这么发生的。
数字落在真模型上,不是玩具:GLM-4.7-Flash上快4.7倍,2290亿参数的MiniMax-M2.7上快1.37倍,跑在英伟达B200上。这是生产规模的长上下文serving,靠机器发现的算法实打实变便宜了。
这跟那条自我改进的agent的线是一回事,RHO修自己的工具箱,MLEvolve进化得比AlphaEvolve还狠。前沿正在悄悄从人设计系统、模型在里面跑,挪向模型也来设计系统。论文:arxiv.org/abs/2606.06453
评论