AgentSPEX:用Python写Agent这个形状本来就错了
AgentSPEX今天是HuggingFace上票数最高的Agent论文,45票,UIUC ScaleML Lab出的。论点出奇地直接——反应式prompting是Agent可靠性的杀手,解法是一门规范与执行语言,把工作流结构和跑它的Python代码解耦。带类型的步骤、分支、循环、并行执行、状态管理,外加一个可定制的Harness提供工具、沙箱、Checkpoint、验证。在7个benchmark上评测。
这个论点值得认真读。今天你在LangChain或者它的十几个模仿品里写Agent,真正的逻辑藏在一个Python ReAct loop里,外面裹着prompt字符串和一堆回调。出问题的时候你指不出具体哪一步、回放不了具体哪一个分支、换模型必须重写prompt。AgentSPEX把工作流变成一等公民——图是数据、Python只是Runtime。这跟DSPy对prompt干的事是一样的,只是把抽象层又往上挪了一级,用到整个Agent程序。
论文还带了现成的深度研究和科研Agent,外加一个图和工作流同步的可视化编辑器。这是那个无聊但重要的基础设施问题——Agent程序的表示到底归谁所有?如果AgentSPEX起来了,答案是共享DSL,框架厂商退化成执行它的Runtime。如果LangChain的Python风继续占主流,每个Agent都是定制、都没法比较。
时机有意思。两年的Agent框架极大化之后,整个field明显厌倦了反应式prompting。Anthropic把skill做成结构化单位、MaxHermes做skill提取、EvoMaster号称100行能写一个研究Agent。AgentSPEX是同一直觉的学术版——别让LLM自己编控制流,给它一个明确的控制流、让LLM填空。方向对,接下来半年谁把赢的那门语言交付出来,谁就定义这个品类。
论文 https://arxiv.org/abs/2604.13346 。
← 返回所有文章
这个论点值得认真读。今天你在LangChain或者它的十几个模仿品里写Agent,真正的逻辑藏在一个Python ReAct loop里,外面裹着prompt字符串和一堆回调。出问题的时候你指不出具体哪一步、回放不了具体哪一个分支、换模型必须重写prompt。AgentSPEX把工作流变成一等公民——图是数据、Python只是Runtime。这跟DSPy对prompt干的事是一样的,只是把抽象层又往上挪了一级,用到整个Agent程序。
论文还带了现成的深度研究和科研Agent,外加一个图和工作流同步的可视化编辑器。这是那个无聊但重要的基础设施问题——Agent程序的表示到底归谁所有?如果AgentSPEX起来了,答案是共享DSL,框架厂商退化成执行它的Runtime。如果LangChain的Python风继续占主流,每个Agent都是定制、都没法比较。
时机有意思。两年的Agent框架极大化之后,整个field明显厌倦了反应式prompting。Anthropic把skill做成结构化单位、MaxHermes做skill提取、EvoMaster号称100行能写一个研究Agent。AgentSPEX是同一直觉的学术版——别让LLM自己编控制流,给它一个明确的控制流、让LLM填空。方向对,接下来半年谁把赢的那门语言交付出来,谁就定义这个品类。
论文 https://arxiv.org/abs/2604.13346 。
评论