2026年6月9日Research RL Open Source

一个同时改自己代码和大脑的agent

自我改进agent一直有两个流派。一派说，把模型冻住，让一个meta-agent去改harness，工具、提示词、重试逻辑、搜索流程。另一派说，把harness固定，用RL在任务反馈上更新模型权重。Hexo Labs开源的SIA说，为什么不能两个一起来，放在一个循环里。一个Feedback-Agent同时更新一个任务专用agent的harness和权重。

结果就是这篇论文为什么刚冲到Hugging Face 775个赞，当天遥遥领先的第一名，尽管它其实两周前就悄悄发了，现在才火起来。SIA-W+H在中文法律罪名分类上超过此前最好成绩25.1%，写出的GPU内核比之前最好的快12.4%，1017对1161微秒，单细胞RNA去噪提升20.4%。三个完全不相干的领域，法律、系统、生物，一个自我改进框架，三个都做到了state of the art。

为什么重要：这是迄今最干净的证据，证明改harness还是改权重本来就是个伪选择。递归自我改进这条线越来越粗。Anthropic说Claude自己写了80%的代码，MLEvolve进化得比AlphaEvolve还好，现在SIA证明一个agent可以在同一个循环里同时改自己的脚手架和参数，而且在毫不相干的领域里都赢。

实诚地说一句，跟所有突然翻红的旧论文一样，活儿是两周前的，爆的是关注度，不是新结果。但结果立得住，而且开源。代码在github.com/hexo-ai/sia，论文在arxiv.org/abs/2605.27276。

← 上一篇

这个benchmark问的是，你的代码真的会被merge吗

OpenAI申请上市，还主动昭告天下

← 返回所有文章

加载中...

一个同时改自己代码和大脑的agent

相关文章

评论