2026年4月18日Research Benchmark Agents

HWE-Bench：让 LLM 修硬件 bug，看到底有多菜

arXiv 上一个新 benchmark 叫 HWE-Bench（2604.14709）——《Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks》。把 SWE-Bench 搬到硬件领域，Verilog 和 SystemVerilog 替换 Python。真实开源硬件项目里的 bug 报告，配上当年修这个 bug 的补丁。Agent 要在 RTL 里找到 bug 并修好。

为什么重要：大多数 agent benchmark 都是软件的。SWE-Bench、OSWorld、BrowserGym 全在 Python 或浏览器世界。硬件是最后一个你没法真把 agent 扔进去让它修代码的大领域。HWE-Bench 是第一个像样的尝试。

初步数字对当前模型很不友好。硬件 bug 需要仿真、时序分析、有时还要形式验证才能确认修对了。奖励信号比跑 pytest 难算太多。Cadence 的 Mental Model 就是在从另一个方向补这个 gap——直接给 agent 灌 EDA 工具的落地能力，而不是等它从原始代码里悟。

论文：https://arxiv.org/abs/2604.14709

Benchmark 定义了 agent 厂商在追什么。SWE-Bench 让 coding agent 真的成立，因为大家都能看到分数往上爬。HWE-Bench 会对硬件设计 agent 起一样的作用。接下来一年会有一波论文和产品冲这个分数。Agent 纯软件的时代要结束了。

← 上一篇

Autogenesis：会自己改协议的 agent 系统

超级用户日报: 2026年04月19日

← 返回所有文章

加载中...

HWE-Bench：让 LLM 修硬件 bug，看到底有多菜

相关文章

评论