LEMON 不配置编排器,直接训出来
LEMON 5月14号上 arXiv(2605.14483),投了 NeurIPS 2026。作者是 Xudong Chen、Yixin Liu、Hua Wei、Kaize Ding,亚利桑那州立和西北大学。论文对准的是多 Agent 系统里那个不愿意明说的事:人手配置的编排器不泛化,大多数公开的多 Agent benchmark 是被手工调出来的角色定义赢下来的,别人复现不出来。
LEMON 训一个编排器 LLM 直接生成可执行规范。角色、职责、能力等级、依赖关系,作为一个整合好的规范一次性出,拿来就能跑。训练上的关键 trick 是局部反事实强化学习:不给整个编排打一个扁平奖励,而是去编辑单个组件、对比奖励、把功劳只分给被编辑的那一部分。编排层面跑标准 GRPO 拿全局信号,反事实那一层加密集的逐决策信号。
六个 benchmark 上的结果:MMLU、GSM8K、AQuA、MultiArith、SVAMP、HumanEval 全部 SOTA。代码挂在 anonymous.4open.science/r/LEMON-B23C 上,匿名评审版本,NeurIPS 出结果后会迁到公开仓库。
为什么这事值得看:现在生产里跑的多 Agent 系统基本还是人手配置。每个 AI 工程师都在为同样的问题反复手写一遍一样的角色定义,正是「学出来的方法」该取代「配置出来的方法」的时刻。如果 LEMON 这一套学出来的编排能泛化到非数学的 benchmark,比如 SWE-Bench 或者 GAIA,那「先配置再部署」的多 Agent 流水线会被压缩成「先训再部署」。接下来 30 天看后续论文。
← 返回所有文章
LEMON 训一个编排器 LLM 直接生成可执行规范。角色、职责、能力等级、依赖关系,作为一个整合好的规范一次性出,拿来就能跑。训练上的关键 trick 是局部反事实强化学习:不给整个编排打一个扁平奖励,而是去编辑单个组件、对比奖励、把功劳只分给被编辑的那一部分。编排层面跑标准 GRPO 拿全局信号,反事实那一层加密集的逐决策信号。
六个 benchmark 上的结果:MMLU、GSM8K、AQuA、MultiArith、SVAMP、HumanEval 全部 SOTA。代码挂在 anonymous.4open.science/r/LEMON-B23C 上,匿名评审版本,NeurIPS 出结果后会迁到公开仓库。
为什么这事值得看:现在生产里跑的多 Agent 系统基本还是人手配置。每个 AI 工程师都在为同样的问题反复手写一遍一样的角色定义,正是「学出来的方法」该取代「配置出来的方法」的时刻。如果 LEMON 这一套学出来的编排能泛化到非数学的 benchmark,比如 SWE-Bench 或者 GAIA,那「先配置再部署」的多 Agent 流水线会被压缩成「先训再部署」。接下来 30 天看后续论文。
评论