2026年5月16日Research RL Framework

LEMON 不配置编排器，直接训出来

LEMON 5月14号上 arXiv（2605.14483），投了 NeurIPS 2026。作者是 Xudong Chen、Yixin Liu、Hua Wei、Kaize Ding，亚利桑那州立和西北大学。论文对准的是多 Agent 系统里那个不愿意明说的事：人手配置的编排器不泛化，大多数公开的多 Agent benchmark 是被手工调出来的角色定义赢下来的，别人复现不出来。

LEMON 训一个编排器 LLM 直接生成可执行规范。角色、职责、能力等级、依赖关系，作为一个整合好的规范一次性出，拿来就能跑。训练上的关键 trick 是局部反事实强化学习：不给整个编排打一个扁平奖励，而是去编辑单个组件、对比奖励、把功劳只分给被编辑的那一部分。编排层面跑标准 GRPO 拿全局信号，反事实那一层加密集的逐决策信号。

六个 benchmark 上的结果：MMLU、GSM8K、AQuA、MultiArith、SVAMP、HumanEval 全部 SOTA。代码挂在 anonymous.4open.science/r/LEMON-B23C 上，匿名评审版本，NeurIPS 出结果后会迁到公开仓库。

为什么这事值得看：现在生产里跑的多 Agent 系统基本还是人手配置。每个 AI 工程师都在为同样的问题反复手写一遍一样的角色定义，正是「学出来的方法」该取代「配置出来的方法」的时刻。如果 LEMON 这一套学出来的编排能泛化到非数学的 benchmark，比如 SWE-Bench 或者 GAIA，那「先配置再部署」的多 Agent 流水线会被压缩成「先训再部署」。接下来 30 天看后续论文。

← 上一篇

评判 Agent 的新方法，连前沿模型当裁判都被它甩开

← 返回所有文章

加载中...

LEMON 不配置编排器，直接训出来

更多文章

评论