2026年4月18日ResearchBenchmarkAgents

HWE-Bench:让 LLM 修硬件 bug,看到底有多菜

arXiv 上一个新 benchmark 叫 HWE-Bench(2604.14709)——《Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks》。把 SWE-Bench 搬到硬件领域,Verilog 和 SystemVerilog 替换 Python。真实开源硬件项目里的 bug 报告,配上当年修这个 bug 的补丁。Agent 要在 RTL 里找到 bug 并修好。

为什么重要:大多数 agent benchmark 都是软件的。SWE-Bench、OSWorld、BrowserGym 全在 Python 或浏览器世界。硬件是最后一个你没法真把 agent 扔进去让它修代码的大领域。HWE-Bench 是第一个像样的尝试。

初步数字对当前模型很不友好。硬件 bug 需要仿真、时序分析、有时还要形式验证才能确认修对了。奖励信号比跑 pytest 难算太多。Cadence 的 Mental Model 就是在从另一个方向补这个 gap——直接给 agent 灌 EDA 工具的落地能力,而不是等它从原始代码里悟。

论文:https://arxiv.org/abs/2604.14709

Benchmark 定义了 agent 厂商在追什么。SWE-Bench 让 coding agent 真的成立,因为大家都能看到分数往上爬。HWE-Bench 会对硬件设计 agent 起一样的作用。接下来一年会有一波论文和产品冲这个分数。Agent 纯软件的时代要结束了。
← 上一篇
Autogenesis:会自己改协议的 agent 系统
下一篇 →
超级用户日报: 2026年04月19日
← 返回所有文章

评论

加载中...
>_