大模型有个老大难问题:聊着聊着就忘了之前说过什么。
你当然可以把上下文窗口拉大——128K、256K、甚至 1M token。但窗口大了不等于记忆好了。研究表明,单纯扩展上下文窗口往往会带来"注意力稀释":模型能看到所有信息,但不知道哪些信息是重要的。
arXiv 上最新发表的 δ-mem(Delta Memory)论文提出了一种完全不同的思路:与其让模型记住所有东西,不如给它一个专门的外部记忆模块。
核心思想:8×8 的状态矩阵
δ-mem 的设计极简到让人意外——它只给 LLM 加了一个 8×8 的在线记忆状态矩阵。
这个矩阵用 delta-rule learning(增量学习规则)持续更新,把过去的对话信息压缩进去。生成新 token 时,δ-mem 从这个记忆矩阵中读取信息,生成一个低秩修正项,直接叠加到骨干模型的注意力计算上。
整个过程中,骨干模型的权重完全冻结。不需要微调,不需要替换注意力层,不需要修改模型结构。δ-mem 是一个即插即用的记忆外挂。
效果如何?
论文给出了几组关键数据:
- 整体平均得分:达到冻结骨干模型的 1.10 倍,最强非 δ-mem 记忆基线的 1.15 倍
- MemoryAgentBench(记忆密集型任务):提升 31%(1.31×)
- LoCoMo(长期对话记忆基准):提升 20%(1.20×)
- 通用能力保留:在记忆增强的同时,基本保持了模型原有的通用能力
8×8 = 64 个参数值,换来了记忆密集型任务 31% 的提升。这个投入产出比在 LLM 研究中是相当罕见的。
为什么不直接用更大的上下文窗口?
论文的回答很直接:扩展上下文窗口是昂贵的,而且不能保证有效的上下文利用。
更大的窗口意味着:
- 更高的推理成本(注意力计算随序列长度平方增长)
- 更长的推理延迟
- 注意力稀释问题——模型在大量信息中找不到重点
而 δ-mem 的记忆状态大小是固定的(8×8),不随对话长度增长。不管你和模型聊了 100 轮还是 10000 轮,记忆矩阵的开销不变。
技术细节:Delta-Rule Learning
δ-mem 的名字来自它的核心学习规则——delta rule,这是一种经典的增量学习算法。每次有新信息进来时,记忆矩阵只做一个小步更新,而不是完全重写。
这种方式有两个好处:
- 稳定性:旧的记忆不会被新的信息轻易覆盖
- 效率:更新计算量极小,可以在推理时实时完成
δ-mem 的读取过程也很巧妙。它不是简单地从记忆中检索片段,而是生成一个低秩修正项来调整注意力计算。这意味着记忆不是"额外加在模型外面"的,而是直接融入了模型的推理过程。
作者阵容
论文作者包括 Jingdi Lei、Di Zhang、Soujanya Poria 等 11 位研究者,来自 SUTD(新加坡科技设计大学)等机构。Soujanya Poria 是多模态 AI 和情感计算领域的知名研究者。
局限与展望
δ-mem 目前还是一个研究原型。论文中没有讨论在工业级 LLM(比如 70B+ 参数)上的表现,也没有涉及多模态记忆的场景。
但它的设计哲学值得关注:记忆不应该通过粗暴地扩展上下文窗口来实现,而应该通过精心设计的轻量模块来增强。 这个思路如果能在更大规模的模型上得到验证,可能会成为 LLM 记忆系统的一个重要方向。
在 Agent 和长期助手场景越来越普遍的今天,一个即插即用的记忆模块,可能比一个更大的上下文窗口更实用。
论文: arXiv:2605.12357