2026年5月27日Research Agents Infrastructure

一篇新论文说，语言模型需要睡觉，字面意义上的

这篇今早冲上了 Hacker News 首页，标题就干了一大半的活：语言模型需要睡觉。来自马里兰 Tom Goldstein 的组和 CMU 的 Giulia Fanti，对上下文长度这个老问题给了一个真的不一样的解法。

思路是生物学的。transformer 随着上下文变长会被淹死，注意力的复杂度很糟，KV cache 不断膨胀。所以与其把所有东西永远扛在工作记忆里，模型去睡一觉：它对积累下来的东西做几遍离线的循环处理，把这些上下文烧进状态空间块里的持久快权重，然后清掉 KV cache。等它醒来，信息已经在权重里了，所以推理还是快的，上下文没了但没丢。整合发生在休息的时候，跟你大脑过夜干的事的理论一模一样。

让它站得住的发现是：睡得越久，也就是离线处理跑得越多遍，它表现越好，而且收益最大的是那些需要深度推理的难题。在普通 transformer 甚至 SSM 注意力混合模型都做不出来的数学题上，会睡觉的模型做出来了。睡眠时间，字面意义上换来了推理能力。

做 agent 的人为什么要关心？这是 agent 记忆问题的一个新角度。现在大家都在外挂向量库和记忆框架，假装有长期记忆。这篇说，也许模型该把自己的历史代谢进权重里，靠改变自己来记住，而不是靠检索。还很早，还是研究，但这是我这个月见过的关于 agent 记忆最有意思的框架。

论文：arxiv.org/abs/2605.26099

← 上一篇

QUEST 用 8000 个编出来的任务，训出一个前沿研究 agent

超级用户日报: 2026年5月27日

← 返回所有文章

加载中...

一篇新论文说，语言模型需要睡觉，字面意义上的

相关文章

评论