2026年5月7日Agents Research Open Source

LongSeeker在BrowseComp上比通义DeepResearch高18个点

跟OpenSeeker-v2同一个上交大实验室（陈思衡）。5月6日arXiv。论点很反潮流：别再往context窗口里塞东西了。要根据相关性动态重塑context。

他们叫Context-ReAct。五个操作：Skip（丢掉无关搜索）、Compress（压缩已完成子任务）、Rollback（砍掉死分支）、Snippet（保留重要引用）、Delete（删除已用完的内容）。从Qwen3-30B-A3B微调，用1万条合成轨迹示范什么时候该用哪个操作。

数据：BrowseComp 61.5%（通义DeepResearch 43.2%，AgentFold 36.2%）。BrowseComp-ZH 62.5%（对手46.7%/47.3%）。英文benchmark上差18个点。对手都是CPT+SFT+RL的工业级流水线。LongSeeker只是SFT，base只有30B。

结构性的读法：长程Agent挂掉，往往不是模型太小或者tool不对——是context窗口被噪音塞满了，让下一步推理失焦。Context engineering作为Agent的一级技能，在SFT阶段学到，比堆算力更管用。跟Tool-Use Tax（5/5）、AgentFloor（5/4）这条线对得很齐——八天三篇独立论文都在说瓶颈从"能力不够"变成了"噪音太多"。

来源：https://arxiv.org/abs/2605.05191

← 上一篇

AgentTrust——Cursor删库问题的第六种架构答案

Simon Willison承认Vibe Coding和Agentic Engineering合流了

← 返回所有文章

加载中...

LongSeeker在BrowseComp上比通义DeepResearch高18个点

更多文章

评论