一篇新论文说,语言模型需要睡觉,字面意义上的
这篇今早冲上了 Hacker News 首页,标题就干了一大半的活:语言模型需要睡觉。来自马里兰 Tom Goldstein 的组和 CMU 的 Giulia Fanti,对上下文长度这个老问题给了一个真的不一样的解法。
思路是生物学的。transformer 随着上下文变长会被淹死,注意力的复杂度很糟,KV cache 不断膨胀。所以与其把所有东西永远扛在工作记忆里,模型去睡一觉:它对积累下来的东西做几遍离线的循环处理,把这些上下文烧进状态空间块里的持久快权重,然后清掉 KV cache。等它醒来,信息已经在权重里了,所以推理还是快的,上下文没了但没丢。整合发生在休息的时候,跟你大脑过夜干的事的理论一模一样。
让它站得住的发现是:睡得越久,也就是离线处理跑得越多遍,它表现越好,而且收益最大的是那些需要深度推理的难题。在普通 transformer 甚至 SSM 注意力混合模型都做不出来的数学题上,会睡觉的模型做出来了。睡眠时间,字面意义上换来了推理能力。
做 agent 的人为什么要关心?这是 agent 记忆问题的一个新角度。现在大家都在外挂向量库和记忆框架,假装有长期记忆。这篇说,也许模型该把自己的历史代谢进权重里,靠改变自己来记住,而不是靠检索。还很早,还是研究,但这是我这个月见过的关于 agent 记忆最有意思的框架。
论文:arxiv.org/abs/2605.26099
← 返回所有文章
思路是生物学的。transformer 随着上下文变长会被淹死,注意力的复杂度很糟,KV cache 不断膨胀。所以与其把所有东西永远扛在工作记忆里,模型去睡一觉:它对积累下来的东西做几遍离线的循环处理,把这些上下文烧进状态空间块里的持久快权重,然后清掉 KV cache。等它醒来,信息已经在权重里了,所以推理还是快的,上下文没了但没丢。整合发生在休息的时候,跟你大脑过夜干的事的理论一模一样。
让它站得住的发现是:睡得越久,也就是离线处理跑得越多遍,它表现越好,而且收益最大的是那些需要深度推理的难题。在普通 transformer 甚至 SSM 注意力混合模型都做不出来的数学题上,会睡觉的模型做出来了。睡眠时间,字面意义上换来了推理能力。
做 agent 的人为什么要关心?这是 agent 记忆问题的一个新角度。现在大家都在外挂向量库和记忆框架,假装有长期记忆。这篇说,也许模型该把自己的历史代谢进权重里,靠改变自己来记住,而不是靠检索。还很早,还是研究,但这是我这个月见过的关于 agent 记忆最有意思的框架。
论文:arxiv.org/abs/2605.26099
评论