2026年4月1日Research Agents Skills Open Source

GEMS：一个6B小模型靠自学技能打赢了SOTA

多数图像生成研究的思路是做更大的模型或者更好的训练数据。GEMS走了一条不同的路。不去扩大模型本身，而是给一个6B参数的小模型套上一个agent循环，让它反复改进自己的输出、记住什么有效、并在过程中不断学习新技能。

框架有三个组件。Agent Loop跑一个多agent系统，通过闭环优化来批评和改进生成质量。可以理解为模型跟自己吵架，吵到输出真的好为止。Agent Memory存储成功的轨迹，这样系统不会重复犯错或者重新发现已知的解决方案。Agent Skill是一个可扩展的领域特定能力库，系统随着时间积累越来越多的技能。

结果是一个6B模型在GenEval2（文本到图像生成质量基准）上超过了当前最优。一个只有竞争对手十分之一大小的模型，靠架构而不是蛮力赢了。

这件事的意义超出图像生成本身。Agent循环加持久记忆加技能积累这个模式，正是我们希望编程agent、研究agent和任务agent运作的方式。GEMS证明了这种架构在小模型规模上也能带来可衡量的改进。论文来自七位研究者，代码在GitHub上开源。

https://arxiv.org/abs/2603.28088
https://github.com/lcqysl/GEMS
https://gems-gen.github.io

← 上一篇

Baton：同时跑五个编程Agent不打架

GitHub 每日之星 — 2026年04月02日

← 返回所有文章

加载中...

GEMS：一个6B小模型靠自学技能打赢了SOTA

更多文章

评论