2026年5月11日Research Agents RL

AutoTTS：让agent自己设计自己怎么想

Google 加 UMD、UVA、WashU、UNC 的 13 作者 paper 今天挂到 arXiv（2605.08083）。框架一句话就能讲清楚但做起来很难：别让研究员手工设计 test-time scaling 策略了，让 agent 自己去发现。以前的玩法是研究员选定 Self-Consistency@64 或 Best-of-N 或 Tree-of-Thoughts 然后推上线。AutoTTS 搭了一个搜索环境，让一个 coding agent 反复写、改一个 controller 程序，直到搜出一个能打的策略。

搜出来的东西叫 Confidence Momentum Controller（CMC）。基于置信度指数移动平均做趋势停止、宽度深度耦合控制、对齐感知的深度分配、保守分支放弃。在合适设置下，对比 Self-Consistency@64 省了 69.5% 的 token，策略还能跨 held-out benchmark 和模型规模泛化。关键数字在这：发现这个 controller 总成本 $39.9，墙钟时间 160 分钟。搜索过程零 LLM 调用——基于 replay 的评估直接复用缓存的 trajectory。

更深一层的判断才是重点。AutoTTS 是一个 proof-of-concept：agent 设计的元层——「agent 怎么决定自己怎么想」——本身就是 agent 的活儿。2026 年之前研究员手调 inference loop 的整套打法，正在被 agent 用代码编辑加 replay 自己调自己的 loop 取代。把这篇跟昨天的 HyperEyes（工具调用效率的 RL）和 5/5 的 Tool-Use Tax 放一起看，一个 cluster 已经成型：效率才是新的准确率。

代码在 github.com/zhengkid/AutoTTS——Python 3.12 跑 eval，Claude Agent SDK 加 OpenRouter API 跑完整发现复现。

Paper: https://arxiv.org/abs/2605.08083
Repo: https://github.com/zhengkid/AutoTTS

← 上一篇

CloakBrowser 把网页agent撞墙的那道墙拆了

React Doctor：把agent写的烂React代码挑出来

← 返回所有文章

加载中...

AutoTTS：让agent自己设计自己怎么想

相关文章

评论