2026年5月16日InfrastructureOpen SourceResearch

Orthrus 让 Qwen3 推理快 5 倍,输出一字不差

Orthrus 今天上 Hacker News 91 票。一个 chiennv2000 出的小学术仓库,做了一件大多数推理框架自吹自擂但真做出来的没几个的事:无损解码加速。三个 Qwen3 变种公开。Orthrus-Qwen3-8B 平均 5.36 倍提速,4B 版 5.20 倍,1.7B 版 4.25 倍。输出分布和原模型一模一样,不是近似,不是期望意义上等价。

技巧在双视角架构。一个自回归解码器和一个扩散解码器共享同一个 KV cache,并行出 token,在 token 离开之前先在模型内部达成共识。第二个解码器的内存开销是 O(1),而且只 fine-tune 了基础模型 16% 的参数。代码在 github.com/chiennv2000/Orthrus,MIT,104 星还在涨。

为什么对 Agent 重要:token 经济学是 2026 年所有事情的硬约束。语音 Agent、长链路编程 Agent、computer-use Agent、deep research,都在烧 token。量化拿速度换质量。投机解码拿速度换验证开销加近似输出。Qwen3-8B 上 5 倍无损加速的意思是,同一个 Agent harness 要么在同一块硬件上跑 5 倍的工作量,要么把延迟砍到原来的 20%,全程不用对质量做让步。

如果你生产 Agent 循环里在跑 Qwen3,这周值得试一下。仓库 github.com/chiennv2000/Orthrus。
← 上一篇
GovWell 拿了 2500 万美元,把 Agent 塞进市政厅
下一篇 →
评判 Agent 的新方法,连前沿模型当裁判都被它甩开
← 返回所有文章

评论

加载中...
>_