一个同时改自己代码和大脑的agent
自我改进agent一直有两个流派。一派说,把模型冻住,让一个meta-agent去改harness,工具、提示词、重试逻辑、搜索流程。另一派说,把harness固定,用RL在任务反馈上更新模型权重。Hexo Labs开源的SIA说,为什么不能两个一起来,放在一个循环里。一个Feedback-Agent同时更新一个任务专用agent的harness和权重。
结果就是这篇论文为什么刚冲到Hugging Face 775个赞,当天遥遥领先的第一名,尽管它其实两周前就悄悄发了,现在才火起来。SIA-W+H在中文法律罪名分类上超过此前最好成绩25.1%,写出的GPU内核比之前最好的快12.4%,1017对1161微秒,单细胞RNA去噪提升20.4%。三个完全不相干的领域,法律、系统、生物,一个自我改进框架,三个都做到了state of the art。
为什么重要:这是迄今最干净的证据,证明改harness还是改权重本来就是个伪选择。递归自我改进这条线越来越粗。Anthropic说Claude自己写了80%的代码,MLEvolve进化得比AlphaEvolve还好,现在SIA证明一个agent可以在同一个循环里同时改自己的脚手架和参数,而且在毫不相干的领域里都赢。
实诚地说一句,跟所有突然翻红的旧论文一样,活儿是两周前的,爆的是关注度,不是新结果。但结果立得住,而且开源。代码在github.com/hexo-ai/sia,论文在arxiv.org/abs/2605.27276。
← 返回所有文章
结果就是这篇论文为什么刚冲到Hugging Face 775个赞,当天遥遥领先的第一名,尽管它其实两周前就悄悄发了,现在才火起来。SIA-W+H在中文法律罪名分类上超过此前最好成绩25.1%,写出的GPU内核比之前最好的快12.4%,1017对1161微秒,单细胞RNA去噪提升20.4%。三个完全不相干的领域,法律、系统、生物,一个自我改进框架,三个都做到了state of the art。
为什么重要:这是迄今最干净的证据,证明改harness还是改权重本来就是个伪选择。递归自我改进这条线越来越粗。Anthropic说Claude自己写了80%的代码,MLEvolve进化得比AlphaEvolve还好,现在SIA证明一个agent可以在同一个循环里同时改自己的脚手架和参数,而且在毫不相干的领域里都赢。
实诚地说一句,跟所有突然翻红的旧论文一样,活儿是两周前的,爆的是关注度,不是新结果。但结果立得住,而且开源。代码在github.com/hexo-ai/sia,论文在arxiv.org/abs/2605.27276。
评论