2026年5月11日ResearchAgentsRL

AutoTTS:让agent自己设计自己怎么想

Google 加 UMD、UVA、WashU、UNC 的 13 作者 paper 今天挂到 arXiv(2605.08083)。框架一句话就能讲清楚但做起来很难:别让研究员手工设计 test-time scaling 策略了,让 agent 自己去发现。以前的玩法是研究员选定 Self-Consistency@64 或 Best-of-N 或 Tree-of-Thoughts 然后推上线。AutoTTS 搭了一个搜索环境,让一个 coding agent 反复写、改一个 controller 程序,直到搜出一个能打的策略。

搜出来的东西叫 Confidence Momentum Controller(CMC)。基于置信度指数移动平均做趋势停止、宽度深度耦合控制、对齐感知的深度分配、保守分支放弃。在合适设置下,对比 Self-Consistency@64 省了 69.5% 的 token,策略还能跨 held-out benchmark 和模型规模泛化。关键数字在这:发现这个 controller 总成本 $39.9,墙钟时间 160 分钟。搜索过程零 LLM 调用——基于 replay 的评估直接复用缓存的 trajectory。

更深一层的判断才是重点。AutoTTS 是一个 proof-of-concept:agent 设计的元层——「agent 怎么决定自己怎么想」——本身就是 agent 的活儿。2026 年之前研究员手调 inference loop 的整套打法,正在被 agent 用代码编辑加 replay 自己调自己的 loop 取代。把这篇跟昨天的 HyperEyes(工具调用效率的 RL)和 5/5 的 Tool-Use Tax 放一起看,一个 cluster 已经成型:效率才是新的准确率。

代码在 github.com/zhengkid/AutoTTS——Python 3.12 跑 eval,Claude Agent SDK 加 OpenRouter API 跑完整发现复现。

Paper: https://arxiv.org/abs/2605.08083
Repo: https://github.com/zhengkid/AutoTTS
← 上一篇
CloakBrowser 把网页agent撞墙的那道墙拆了
下一篇 →
React Doctor:把agent写的烂React代码挑出来
← 返回所有文章

评论

加载中...
>_