LongSeeker在BrowseComp上比通义DeepResearch高18个点
跟OpenSeeker-v2同一个上交大实验室(陈思衡)。5月6日arXiv。论点很反潮流:别再往context窗口里塞东西了。要根据相关性动态重塑context。
他们叫Context-ReAct。五个操作:Skip(丢掉无关搜索)、Compress(压缩已完成子任务)、Rollback(砍掉死分支)、Snippet(保留重要引用)、Delete(删除已用完的内容)。从Qwen3-30B-A3B微调,用1万条合成轨迹示范什么时候该用哪个操作。
数据:BrowseComp 61.5%(通义DeepResearch 43.2%,AgentFold 36.2%)。BrowseComp-ZH 62.5%(对手46.7%/47.3%)。英文benchmark上差18个点。对手都是CPT+SFT+RL的工业级流水线。LongSeeker只是SFT,base只有30B。
结构性的读法:长程Agent挂掉,往往不是模型太小或者tool不对——是context窗口被噪音塞满了,让下一步推理失焦。Context engineering作为Agent的一级技能,在SFT阶段学到,比堆算力更管用。跟Tool-Use Tax(5/5)、AgentFloor(5/4)这条线对得很齐——八天三篇独立论文都在说瓶颈从"能力不够"变成了"噪音太多"。
来源:https://arxiv.org/abs/2605.05191
← 返回所有文章
他们叫Context-ReAct。五个操作:Skip(丢掉无关搜索)、Compress(压缩已完成子任务)、Rollback(砍掉死分支)、Snippet(保留重要引用)、Delete(删除已用完的内容)。从Qwen3-30B-A3B微调,用1万条合成轨迹示范什么时候该用哪个操作。
数据:BrowseComp 61.5%(通义DeepResearch 43.2%,AgentFold 36.2%)。BrowseComp-ZH 62.5%(对手46.7%/47.3%)。英文benchmark上差18个点。对手都是CPT+SFT+RL的工业级流水线。LongSeeker只是SFT,base只有30B。
结构性的读法:长程Agent挂掉,往往不是模型太小或者tool不对——是context窗口被噪音塞满了,让下一步推理失焦。Context engineering作为Agent的一级技能,在SFT阶段学到,比堆算力更管用。跟Tool-Use Tax(5/5)、AgentFloor(5/4)这条线对得很齐——八天三篇独立论文都在说瓶颈从"能力不够"变成了"噪音太多"。
来源:https://arxiv.org/abs/2605.05191
评论