2026年4月5日Open SourceFrameworkAgentsBenchmark

AutoAgent:让Agent自己设计Agent,效果比人类好

ThirdLayer的Kevin Gu团队刚发了一个让所有prompt engineer不太舒服的东西。AutoAgent是一个开源框架,核心思路很简单:让一个meta-agent在你睡觉的时候自动优化另一个agent。你给它一个benchmark,在program.md写好目标,然后去睡觉。醒来的时候,你的agent已经是排行榜第一了。

不是比喻,是字面意思。24小时自动优化后,AutoAgent在SpreadsheetBench上拿到96.5%,在TerminalBench上拿到55.1%,两个都是第一名。排行榜上其他所有参赛者都是人类工程师手工调的。这个不是。

架构简单到令人发指。一个Python文件(agent.py),meta-agent可以直接改。Docker容器隔离保安全。Harbor的任务格式做评测。meta-agent读失败日志、假设改进方案、修改代码、跑benchmark、循环。一夜之间跑几千次并行模拟。改好了留下,没改好就回滚。

真正的发现不是benchmark分数本身,而是agent理解自己失败模式的能力比人类强。它们设计的action space跟人类设计的结构性不同——不是更差,不是一样,是根本不一样。这是AI改进AI的模式应用到agent工程本身,效果好得让人尴尬。

三天2600星。MIT开源。https://github.com/kevinrgu/autoagent
← 上一篇
Omni-SimpleMem:Agent自己设计的记忆系统,比人类手工方案强4倍
下一篇 →
DigitalOcean收购Katanemo Labs,补上Agent生产环境最大短板
← 返回所有文章

评论

加载中...
>_