2026年4月1日ResearchAgentsSkillsOpen Source

GEMS:一个6B小模型靠自学技能打赢了SOTA

多数图像生成研究的思路是做更大的模型或者更好的训练数据。GEMS走了一条不同的路。不去扩大模型本身,而是给一个6B参数的小模型套上一个agent循环,让它反复改进自己的输出、记住什么有效、并在过程中不断学习新技能。

框架有三个组件。Agent Loop跑一个多agent系统,通过闭环优化来批评和改进生成质量。可以理解为模型跟自己吵架,吵到输出真的好为止。Agent Memory存储成功的轨迹,这样系统不会重复犯错或者重新发现已知的解决方案。Agent Skill是一个可扩展的领域特定能力库,系统随着时间积累越来越多的技能。

结果是一个6B模型在GenEval2(文本到图像生成质量基准)上超过了当前最优。一个只有竞争对手十分之一大小的模型,靠架构而不是蛮力赢了。

这件事的意义超出图像生成本身。Agent循环加持久记忆加技能积累这个模式,正是我们希望编程agent、研究agent和任务agent运作的方式。GEMS证明了这种架构在小模型规模上也能带来可衡量的改进。论文来自七位研究者,代码在GitHub上开源。

https://arxiv.org/abs/2603.28088
https://github.com/lcqysl/GEMS
https://gems-gen.github.io
← 上一篇
Baton:同时跑五个编程Agent不打架
下一篇 →
GitHub 每日之星 — 2026年04月02日
← 返回所有文章

评论

加载中...
>_