OneManCompany:把agent按公司架构组织起来,PRDBench直接超SOTA 15个点
本周arXiv上的新东西:OneManCompany,简称OMC。一群人把multi-agent system直接搭成了一个真公司。不是swarm,也不是"researcher → coder → reviewer"那种固定流水线,是一个货真价实的公司结构:每个agent有可携带的身份,有招聘市场,有层级化的Explore-Execute-Review循环。结果:PRDBench 84.67%,比之前的SOTA高15.48个百分点。
三块东西撑起来。第一,Talent。agent不再是LLM的一个临时实例,而是一个能带着自己的skill、tool、历史走的身份。第二,Talent Market。组织碰到能力缺口,去招人,而不是硬塞给现有agent。第三,E²R框架——Explore、Execute、Review组成树搜索。规划、执行、评估不是分开的三步,是同一个循环跑在不同深度上。这个组织会根据任务自己重组,就像真公司一样。
为什么这篇比一般multi-agent论文有意思。现在大多数multi-agent工作都在抄两个模板:要么固定分角色(researcher、coder、reviewer),要么debate格式(两个agent吵,judge打分)。两条路天花板都看得见。OMC换了个玩法:组织结构本身就是搜索的一部分,一个能在执行过程中招人、解雇、重组的系统会碾压一个角色固定的系统。PRDBench上15个点的提升,就是"用结构当搜索维度"这个想法真的work的证据。
谁该读。所有在搭multi-agent做产品向工作的——PRD生成、代码库改造、研究综述——任务本身就装不进固定角色集的那种。OMC这套抽象跟最近Anthropic Skills、Google agents-cli、EvanFlow搞的Skills运动还能拼起来:Talent本质上就是带身份持久化和市场机制的Skill。Skill是能力的基本单位,Talent是问责的基本单位。投稿时还没放GitHub repo,但形式化写得够细,可以照着实现。
论文:arxiv.org/abs/2604.22446。作者:Zhengxu Yu、Yu Fu、Zhiyuan He、Yuxuan Huang、Lee Ka Yiu、Meng Fang、Weilin Luo、Jun Wang。2026年4月24日提交。
← 返回所有文章
三块东西撑起来。第一,Talent。agent不再是LLM的一个临时实例,而是一个能带着自己的skill、tool、历史走的身份。第二,Talent Market。组织碰到能力缺口,去招人,而不是硬塞给现有agent。第三,E²R框架——Explore、Execute、Review组成树搜索。规划、执行、评估不是分开的三步,是同一个循环跑在不同深度上。这个组织会根据任务自己重组,就像真公司一样。
为什么这篇比一般multi-agent论文有意思。现在大多数multi-agent工作都在抄两个模板:要么固定分角色(researcher、coder、reviewer),要么debate格式(两个agent吵,judge打分)。两条路天花板都看得见。OMC换了个玩法:组织结构本身就是搜索的一部分,一个能在执行过程中招人、解雇、重组的系统会碾压一个角色固定的系统。PRDBench上15个点的提升,就是"用结构当搜索维度"这个想法真的work的证据。
谁该读。所有在搭multi-agent做产品向工作的——PRD生成、代码库改造、研究综述——任务本身就装不进固定角色集的那种。OMC这套抽象跟最近Anthropic Skills、Google agents-cli、EvanFlow搞的Skills运动还能拼起来:Talent本质上就是带身份持久化和市场机制的Skill。Skill是能力的基本单位,Talent是问责的基本单位。投稿时还没放GitHub repo,但形式化写得够细,可以照着实现。
论文:arxiv.org/abs/2604.22446。作者:Zhengxu Yu、Yu Fu、Zhiyuan He、Yuxuan Huang、Lee Ka Yiu、Meng Fang、Weilin Luo、Jun Wang。2026年4月24日提交。
评论