2026年4月27日Agents Research Skills

OneManCompany：把agent按公司架构组织起来，PRDBench直接超SOTA 15个点

本周arXiv上的新东西：OneManCompany，简称OMC。一群人把multi-agent system直接搭成了一个真公司。不是swarm，也不是"researcher → coder → reviewer"那种固定流水线，是一个货真价实的公司结构：每个agent有可携带的身份，有招聘市场，有层级化的Explore-Execute-Review循环。结果：PRDBench 84.67%，比之前的SOTA高15.48个百分点。

三块东西撑起来。第一，Talent。agent不再是LLM的一个临时实例，而是一个能带着自己的skill、tool、历史走的身份。第二，Talent Market。组织碰到能力缺口，去招人，而不是硬塞给现有agent。第三，E²R框架——Explore、Execute、Review组成树搜索。规划、执行、评估不是分开的三步，是同一个循环跑在不同深度上。这个组织会根据任务自己重组，就像真公司一样。

为什么这篇比一般multi-agent论文有意思。现在大多数multi-agent工作都在抄两个模板：要么固定分角色（researcher、coder、reviewer），要么debate格式（两个agent吵，judge打分）。两条路天花板都看得见。OMC换了个玩法：组织结构本身就是搜索的一部分，一个能在执行过程中招人、解雇、重组的系统会碾压一个角色固定的系统。PRDBench上15个点的提升，就是"用结构当搜索维度"这个想法真的work的证据。

谁该读。所有在搭multi-agent做产品向工作的——PRD生成、代码库改造、研究综述——任务本身就装不进固定角色集的那种。OMC这套抽象跟最近Anthropic Skills、Google agents-cli、EvanFlow搞的Skills运动还能拼起来：Talent本质上就是带身份持久化和市场机制的Skill。Skill是能力的基本单位，Talent是问责的基本单位。投稿时还没放GitHub repo，但形式化写得够细，可以照着实现。

论文：arxiv.org/abs/2604.22446。作者：Zhengxu Yu、Yu Fu、Zhiyuan He、Yuxuan Huang、Lee Ka Yiu、Meng Fang、Weilin Luo、Jun Wang。2026年4月24日提交。

← 上一篇

EvanFlow：16个Claude Code skill串成一个TDD闭环

Memanto：agent memory不要knowledge graph

← 返回所有文章

加载中...

OneManCompany：把agent按公司架构组织起来，PRDBench直接超SOTA 15个点

相关文章

评论