C
ChaoBro

δ-mem:给 LLM 装上一个 8×8 的记忆芯片,不微调也能记住长期对话

大模型有个老大难问题:聊着聊着就忘了之前说过什么。

你当然可以把上下文窗口拉大——128K、256K、甚至 1M token。但窗口大了不等于记忆好了。研究表明,单纯扩展上下文窗口往往会带来"注意力稀释":模型能看到所有信息,但不知道哪些信息是重要的。

arXiv 上最新发表的 δ-mem(Delta Memory)论文提出了一种完全不同的思路:与其让模型记住所有东西,不如给它一个专门的外部记忆模块。

核心思想:8×8 的状态矩阵

δ-mem 的设计极简到让人意外——它只给 LLM 加了一个 8×8 的在线记忆状态矩阵

这个矩阵用 delta-rule learning(增量学习规则)持续更新,把过去的对话信息压缩进去。生成新 token 时,δ-mem 从这个记忆矩阵中读取信息,生成一个低秩修正项,直接叠加到骨干模型的注意力计算上。

整个过程中,骨干模型的权重完全冻结。不需要微调,不需要替换注意力层,不需要修改模型结构。δ-mem 是一个即插即用的记忆外挂。

效果如何?

论文给出了几组关键数据:

  • 整体平均得分:达到冻结骨干模型的 1.10 倍,最强非 δ-mem 记忆基线的 1.15 倍
  • MemoryAgentBench(记忆密集型任务):提升 31%(1.31×)
  • LoCoMo(长期对话记忆基准):提升 20%(1.20×)
  • 通用能力保留:在记忆增强的同时,基本保持了模型原有的通用能力

8×8 = 64 个参数值,换来了记忆密集型任务 31% 的提升。这个投入产出比在 LLM 研究中是相当罕见的。

为什么不直接用更大的上下文窗口?

论文的回答很直接:扩展上下文窗口是昂贵的,而且不能保证有效的上下文利用。

更大的窗口意味着:

  1. 更高的推理成本(注意力计算随序列长度平方增长)
  2. 更长的推理延迟
  3. 注意力稀释问题——模型在大量信息中找不到重点

而 δ-mem 的记忆状态大小是固定的(8×8),不随对话长度增长。不管你和模型聊了 100 轮还是 10000 轮,记忆矩阵的开销不变。

技术细节:Delta-Rule Learning

δ-mem 的名字来自它的核心学习规则——delta rule,这是一种经典的增量学习算法。每次有新信息进来时,记忆矩阵只做一个小步更新,而不是完全重写。

这种方式有两个好处:

  • 稳定性:旧的记忆不会被新的信息轻易覆盖
  • 效率:更新计算量极小,可以在推理时实时完成

δ-mem 的读取过程也很巧妙。它不是简单地从记忆中检索片段,而是生成一个低秩修正项来调整注意力计算。这意味着记忆不是"额外加在模型外面"的,而是直接融入了模型的推理过程

作者阵容

论文作者包括 Jingdi Lei、Di Zhang、Soujanya Poria 等 11 位研究者,来自 SUTD(新加坡科技设计大学)等机构。Soujanya Poria 是多模态 AI 和情感计算领域的知名研究者。

局限与展望

δ-mem 目前还是一个研究原型。论文中没有讨论在工业级 LLM(比如 70B+ 参数)上的表现,也没有涉及多模态记忆的场景。

但它的设计哲学值得关注:记忆不应该通过粗暴地扩展上下文窗口来实现,而应该通过精心设计的轻量模块来增强。 这个思路如果能在更大规模的模型上得到验证,可能会成为 LLM 记忆系统的一个重要方向。

在 Agent 和长期助手场景越来越普遍的今天,一个即插即用的记忆模块,可能比一个更大的上下文窗口更实用。

论文: arXiv:2605.12357