2026年4月27日Open SourceCodingAgentsBenchmark

Dirac在TerminalBench-2上把Junie CLI按在地上

一个叫GodelNumbering的独立开发者放出了一个开源编程agent,叫Dirac。4月27日,它在TerminalBench-2榜上用Gemini-3-flash-preview打出65.2%。谷歌官方的baseline是47.8%。JetBrains的Junie CLI,原来的闭源最高分,是64.3%。一个Apache-2.0许可的Cline分支,在同一个模型上把最强闭源编程agent按住了。

到底改了什么。作者的核心观点:harness比模型重要。五个具体押注。Hash锚定的edit替代line-number edit——插入不再打乱定位坐标。基于AST的context选择,跨14种tree-sitter解析器,模型看的是结构化代码不是模糊文本窗口。工具接受列表参数——模型一次调用编辑多个文件,不用想办法把它哄进循环里。可执行分析——模型可以写bash、Python真的跑起来,不只是读代码。机会主义的context curation,预取它预测模型会用到的东西。

成本数字。8个评估任务全部通过,平均每任务0.18美元。Dirac号称在同一负载上比竞争对手便宜64.8%。这个数字才是真正的杀招。任何拿Cursor或Claude Code在真实重构上跑过benchmark的人都知道,单任务成本这一行才是真正烧人的。能用五分之一的钱做更难任务的coding agent,重写了self-host agent部署的经济账。

它不做什么。不支持MCP。作者明确选择了"只支持原生tool calling"。这砍掉了过去一年生态里一大批基于MCP server搭的东西。这是一个有论据的押注——MCP在模型已经可以用原生tools解决的事情上增加token和延迟——但它也是一个分叉,跟整个agent生态过去一年试图收敛的方向反着来。

背景。Dirac是Cline的fork,作者说"两个月写了7万行新代码"。截稿时585星,HN首页带飞之后增长很快。这是这个月最干净的一个论证:"agent质量等于harness质量",闭源厂商在这个角度上还在留钱不捡。

https://github.com/dirac-run/dirac
← 上一篇
GitHub Copilot终于改成按token计费
下一篇 →
超级用户日报: 2026-04-28
← 返回所有文章

评论

加载中...
>_