2026年4月14日Research Agents Monitoring

CodeTracer：给调试代码的 AI Agent 做调试

代码 agent 越来越强了。能修 bug、能重构、能跟终端交互。但当它们失败的时候，祝你好运找出原因。一个早期的小失误通过并行工具调用和多阶段工作流级联成一团隐藏的错误链。你知道某个地方出了问题，就是找不到在哪。

南京大学和快手联合推出的 CodeTracer 正面解决这个问题。这是一个追踪架构，它把代码 agent 的完整状态转换历史重建为层级追踪树，带有持久化内存。然后执行故障起点定位，精确找到 agent 第一次偏离轨道的位置，以及这个错误如何向下游级联。

团队构建了 CodeTraceBench，一个大规模基准，来自四个广泛使用的代码 agent 框架在 bug 修复、重构和终端交互任务上的执行轨迹。每条轨迹在阶段和步骤两个粒度上都有故障定位的标注。

实验表明 CodeTracer 在定位 agent 故障方面大幅超越直接提示和轻量级基线方法。这不只是学术研究。如果你在生产环境跑代码 agent，10 分钟调试和 2 小时调试的差别，往往就在于你能不能追溯到第一个错误转弯的位置。

https://arxiv.org/abs/2604.11641

← 上一篇

CocoaBench：最好的 AI Agent 得了 45 分，这已经是最好的了

N-Day-Bench：你的 LLM 真能找 Bug，还是只会谈论 Bug？

← 返回所有文章

加载中...

CodeTracer：给调试代码的 AI Agent 做调试

相关文章

评论