一篇论文刚论证LangGraph和CrewAI已经过时了
4月30日agent benchmarking圈出了一篇论文,标题就够让一堆做编排的创业公司难受:In-Context Prompting Obsoletes Agent Orchestration。论点是对程序化工作流来说,把整个流程塞进system prompt,在质量和失败率上都打过LangGraph和CrewAI。同样的模型。
实验是具体的。三个领域:14节点的旅行订票、14节点的Zoom技术支持、55节点的保险理赔。每个条件200个对话。in-context方法在5分制质量分上得4.53-5.00,LangGraph编排得4.17-4.84。狠的是失败率:旅行11.5% vs 24%,Zoom 0.5% vs 9%,保险5% vs 17%。在真实的程序化任务上失败率大概砍了一半,整个过程没有用graph框架。
他们真正在说的论点比标题更有意思。他们说编排层解的是2023年的问题——小模型撑不住长流程的上下文,所以必须把工作切成节点再在节点间路由。2026年的前沿模型能整段吃下完整流程。这个图不再是承重的,它就是负担。原来住在框架里的路由逻辑现在住在模型里——意思是你通过改prompt来debug,不再是顺着DAG往下追。
如果这个结果在规模上站得住,它指向的方向跟最近其他几件事一致——Anthropic的Skills、OpenAI对harness的简化、总体上向LLM原生程序推理的迁移。编排层可能是一个正在被淘汰的过渡技术。建在它之上的框架未来需要回答一个问题:当模型本身就是编排器的时候,你卖的是什么。
https://arxiv.org/abs/2604.27891
← 返回所有文章
实验是具体的。三个领域:14节点的旅行订票、14节点的Zoom技术支持、55节点的保险理赔。每个条件200个对话。in-context方法在5分制质量分上得4.53-5.00,LangGraph编排得4.17-4.84。狠的是失败率:旅行11.5% vs 24%,Zoom 0.5% vs 9%,保险5% vs 17%。在真实的程序化任务上失败率大概砍了一半,整个过程没有用graph框架。
他们真正在说的论点比标题更有意思。他们说编排层解的是2023年的问题——小模型撑不住长流程的上下文,所以必须把工作切成节点再在节点间路由。2026年的前沿模型能整段吃下完整流程。这个图不再是承重的,它就是负担。原来住在框架里的路由逻辑现在住在模型里——意思是你通过改prompt来debug,不再是顺着DAG往下追。
如果这个结果在规模上站得住,它指向的方向跟最近其他几件事一致——Anthropic的Skills、OpenAI对harness的简化、总体上向LLM原生程序推理的迁移。编排层可能是一个正在被淘汰的过渡技术。建在它之上的框架未来需要回答一个问题:当模型本身就是编排器的时候,你卖的是什么。
https://arxiv.org/abs/2604.27891
评论