δ-mem：给 LLM 装上一个 8×8 的记忆芯片，不微调也能记住长期对话

大模型有个老大难问题：聊着聊着就忘了之前说过什么。

你当然可以把上下文窗口拉大——128K、256K、甚至 1M token。但窗口大了不等于记忆好了。研究表明，单纯扩展上下文窗口往往会带来"注意力稀释"：模型能看到所有信息，但不知道哪些信息是重要的。

arXiv 上最新发表的 δ-mem（Delta Memory）论文提出了一种完全不同的思路：与其让模型记住所有东西，不如给它一个专门的外部记忆模块。

核心思想：8×8 的状态矩阵

δ-mem 的设计极简到让人意外——它只给 LLM 加了一个 8×8 的在线记忆状态矩阵。

这个矩阵用 delta-rule learning（增量学习规则）持续更新，把过去的对话信息压缩进去。生成新 token 时，δ-mem 从这个记忆矩阵中读取信息，生成一个低秩修正项，直接叠加到骨干模型的注意力计算上。

整个过程中，骨干模型的权重完全冻结。不需要微调，不需要替换注意力层，不需要修改模型结构。δ-mem 是一个即插即用的记忆外挂。

论文给出了几组关键数据：

8×8 = 64 个参数值，换来了记忆密集型任务 31% 的提升。这个投入产出比在 LLM 研究中是相当罕见的。

论文的回答很直接：扩展上下文窗口是昂贵的，而且不能保证有效的上下文利用。

更大的窗口意味着：

而 δ-mem 的记忆状态大小是固定的（8×8），不随对话长度增长。不管你和模型聊了 100 轮还是 10000 轮，记忆矩阵的开销不变。

δ-mem 的名字来自它的核心学习规则——delta rule，这是一种经典的增量学习算法。每次有新信息进来时，记忆矩阵只做一个小步更新，而不是完全重写。

这种方式有两个好处：

δ-mem 的读取过程也很巧妙。它不是简单地从记忆中检索片段，而是生成一个低秩修正项来调整注意力计算。这意味着记忆不是"额外加在模型外面"的，而是直接融入了模型的推理过程。

论文作者包括 Jingdi Lei、Di Zhang、Soujanya Poria 等 11 位研究者，来自 SUTD（新加坡科技设计大学）等机构。Soujanya Poria 是多模态 AI 和情感计算领域的知名研究者。

δ-mem 目前还是一个研究原型。论文中没有讨论在工业级 LLM（比如 70B+ 参数）上的表现，也没有涉及多模态记忆的场景。

但它的设计哲学值得关注：记忆不应该通过粗暴地扩展上下文窗口来实现，而应该通过精心设计的轻量模块来增强。 这个思路如果能在更大规模的模型上得到验证，可能会成为 LLM 记忆系统的一个重要方向。

在 Agent 和长期助手场景越来越普遍的今天，一个即插即用的记忆模块，可能比一个更大的上下文窗口更实用。