2026年5月1日Research Framework Agents

一篇论文刚论证LangGraph和CrewAI已经过时了

4月30日agent benchmarking圈出了一篇论文，标题就够让一堆做编排的创业公司难受：In-Context Prompting Obsoletes Agent Orchestration。论点是对程序化工作流来说，把整个流程塞进system prompt，在质量和失败率上都打过LangGraph和CrewAI。同样的模型。

实验是具体的。三个领域：14节点的旅行订票、14节点的Zoom技术支持、55节点的保险理赔。每个条件200个对话。in-context方法在5分制质量分上得4.53-5.00，LangGraph编排得4.17-4.84。狠的是失败率：旅行11.5% vs 24%，Zoom 0.5% vs 9%，保险5% vs 17%。在真实的程序化任务上失败率大概砍了一半，整个过程没有用graph框架。

他们真正在说的论点比标题更有意思。他们说编排层解的是2023年的问题——小模型撑不住长流程的上下文，所以必须把工作切成节点再在节点间路由。2026年的前沿模型能整段吃下完整流程。这个图不再是承重的，它就是负担。原来住在框架里的路由逻辑现在住在模型里——意思是你通过改prompt来debug，不再是顺着DAG往下追。

如果这个结果在规模上站得住，它指向的方向跟最近其他几件事一致——Anthropic的Skills、OpenAI对harness的简化、总体上向LLM原生程序推理的迁移。编排层可能是一个正在被淘汰的过渡技术。建在它之上的框架未来需要回答一个问题：当模型本身就是编排器的时候，你卖的是什么。

https://arxiv.org/abs/2604.27891

← 上一篇

Zed 1.0发布。从第一天就为agent设计的编辑器

Claw-Eval-Live：一个跟着真实世界刷新的agent基准

← 返回所有文章

加载中...

一篇论文刚论证LangGraph和CrewAI已经过时了

相关文章

评论