2026年4月27日Open Source Coding Agents Benchmark

Dirac在TerminalBench-2上把Junie CLI按在地上

一个叫GodelNumbering的独立开发者放出了一个开源编程agent，叫Dirac。4月27日，它在TerminalBench-2榜上用Gemini-3-flash-preview打出65.2%。谷歌官方的baseline是47.8%。JetBrains的Junie CLI，原来的闭源最高分，是64.3%。一个Apache-2.0许可的Cline分支，在同一个模型上把最强闭源编程agent按住了。

到底改了什么。作者的核心观点：harness比模型重要。五个具体押注。Hash锚定的edit替代line-number edit——插入不再打乱定位坐标。基于AST的context选择，跨14种tree-sitter解析器，模型看的是结构化代码不是模糊文本窗口。工具接受列表参数——模型一次调用编辑多个文件，不用想办法把它哄进循环里。可执行分析——模型可以写bash、Python真的跑起来，不只是读代码。机会主义的context curation，预取它预测模型会用到的东西。

成本数字。8个评估任务全部通过，平均每任务0.18美元。Dirac号称在同一负载上比竞争对手便宜64.8%。这个数字才是真正的杀招。任何拿Cursor或Claude Code在真实重构上跑过benchmark的人都知道，单任务成本这一行才是真正烧人的。能用五分之一的钱做更难任务的coding agent，重写了self-host agent部署的经济账。

它不做什么。不支持MCP。作者明确选择了"只支持原生tool calling"。这砍掉了过去一年生态里一大批基于MCP server搭的东西。这是一个有论据的押注——MCP在模型已经可以用原生tools解决的事情上增加token和延迟——但它也是一个分叉，跟整个agent生态过去一年试图收敛的方向反着来。

背景。Dirac是Cline的fork，作者说"两个月写了7万行新代码"。截稿时585星，HN首页带飞之后增长很快。这是这个月最干净的一个论证："agent质量等于harness质量"，闭源厂商在这个角度上还在留钱不捡。

https://github.com/dirac-run/dirac

← 上一篇

GitHub Copilot终于改成按token计费

超级用户日报: 2026-04-28

← 返回所有文章

加载中...

Dirac在TerminalBench-2上把Junie CLI按在地上

相关文章

评论