2026年4月5日Open Source Framework Agents Benchmark

AutoAgent：让Agent自己设计Agent，效果比人类好

ThirdLayer的Kevin Gu团队刚发了一个让所有prompt engineer不太舒服的东西。AutoAgent是一个开源框架，核心思路很简单：让一个meta-agent在你睡觉的时候自动优化另一个agent。你给它一个benchmark，在program.md写好目标，然后去睡觉。醒来的时候，你的agent已经是排行榜第一了。

不是比喻，是字面意思。24小时自动优化后，AutoAgent在SpreadsheetBench上拿到96.5%，在TerminalBench上拿到55.1%，两个都是第一名。排行榜上其他所有参赛者都是人类工程师手工调的。这个不是。

架构简单到令人发指。一个Python文件（agent.py），meta-agent可以直接改。Docker容器隔离保安全。Harbor的任务格式做评测。meta-agent读失败日志、假设改进方案、修改代码、跑benchmark、循环。一夜之间跑几千次并行模拟。改好了留下，没改好就回滚。

真正的发现不是benchmark分数本身，而是agent理解自己失败模式的能力比人类强。它们设计的action space跟人类设计的结构性不同——不是更差，不是一样，是根本不一样。这是AI改进AI的模式应用到agent工程本身，效果好得让人尴尬。

三天2600星。MIT开源。https://github.com/kevinrgu/autoagent

← 上一篇

Omni-SimpleMem：Agent自己设计的记忆系统，比人类手工方案强4倍

DigitalOcean收购Katanemo Labs，补上Agent生产环境最大短板

← 返回所有文章

加载中...

AutoAgent：让Agent自己设计Agent，效果比人类好

相关文章

评论