2026年5月16日Infrastructure Open Source Research

Orthrus 让 Qwen3 推理快 5 倍，输出一字不差

Orthrus 今天上 Hacker News 91 票。一个 chiennv2000 出的小学术仓库，做了一件大多数推理框架自吹自擂但真做出来的没几个的事：无损解码加速。三个 Qwen3 变种公开。Orthrus-Qwen3-8B 平均 5.36 倍提速，4B 版 5.20 倍，1.7B 版 4.25 倍。输出分布和原模型一模一样，不是近似，不是期望意义上等价。

技巧在双视角架构。一个自回归解码器和一个扩散解码器共享同一个 KV cache，并行出 token，在 token 离开之前先在模型内部达成共识。第二个解码器的内存开销是 O(1)，而且只 fine-tune 了基础模型 16% 的参数。代码在 github.com/chiennv2000/Orthrus，MIT，104 星还在涨。

为什么对 Agent 重要：token 经济学是 2026 年所有事情的硬约束。语音 Agent、长链路编程 Agent、computer-use Agent、deep research，都在烧 token。量化拿速度换质量。投机解码拿速度换验证开销加近似输出。Qwen3-8B 上 5 倍无损加速的意思是，同一个 Agent harness 要么在同一块硬件上跑 5 倍的工作量，要么把延迟砍到原来的 20%，全程不用对质量做让步。

如果你生产 Agent 循环里在跑 Qwen3，这周值得试一下。仓库 github.com/chiennv2000/Orthrus。

← 上一篇

GovWell 拿了 2500 万美元，把 Agent 塞进市政厅

评判 Agent 的新方法，连前沿模型当裁判都被它甩开

← 返回所有文章

加载中...

Orthrus 让 Qwen3 推理快 5 倍，输出一字不差

相关文章

评论