过去两年,所有头部 AI 实验室都在做同一件事:让模型想得更深。
推理链更长、思考步骤更多、o1/Claude R1 式的"先想再做"——这条技术路线共识强到什么程度?强到你今天去一线投资人那里,如果不能讲清楚自己怎么"做推理",连第一轮的门都进不去。
伯克利的研究者现在问了一个没人愿意问的问题:如果我们集体押注的这条路,正在让模型变成"会做题但学不会新东西的天才",那我们押的到底是什么?
一个实验,暴露了整个行业的盲区
他们的实验设计很简单。
让同一个大语言模型连续学三个任务:
- 先学事实核验(HoVer,需要多跳检索)
- 再学代码推理(CodeIO)
- 最后学物理题(Physics)
每个任务只训 200 步就切换到下一个,模拟真实世界里"任务在不断变化"的学习场景。
结果:用主流的强化学习范式训练,模型在第一关 HoVer 上学会了。到了第二关 CodeIO,完全卡住。学不动。
不是说学得慢——是根本学不会。之前学过的 HoVer 的知识还在,但新任务需要的学习能力已经没了。这就是灾难性遗忘的另一种形态:不是忘了旧的,是丧失了学新的能力。
FST:快慢双系统的解法
他们提出的框架叫 FST(Fast and Slow Training),灵感来自认知科学中的双系统理论。
核心思路是分层:
- 快速适应层:通过记忆和上下文快速调整,应对新任务
- 慢速权重层:缓慢调整模型权重,保留可塑性,避免灾难性遗忘
用 FST 跑同样的实验,同一个模型,三关都过了。
论文预印本:Learning, Fast and Slow: Towards LLMs That Adapt Continually
为什么这件事重要
AI 工程师 Dan McAteer 看了这篇论文后做了一个大胆的判断:2026 年持续学习即将爆发,而 FST 框架的突破"远超推理变革 1000 倍"。
这个说法可能夸张了,但方向是对的。
想想现在的大模型是怎么"更新"的:要加新知识,就得重新微调甚至重新训练整个模型。成本高、周期长、而且学完新东西旧东西就忘了。
FST 的思路是让模型像人一样学习——不是每次学新东西都重写大脑,而是在已有的基础上叠加新的理解。如果这条路走通了,模型更新的成本和时间会呈数量级下降。
但先别急着兴奋
这是预印本,不是经过同行评审的正式论文。实验规模也有限——三个任务、每个 200 步,和真实世界中模型需要持续学习的复杂度差了很远。
更重要的是,FST 目前只是在一个特定实验设置下证明了可行性。它能不能扩展到更大的模型、更多的任务、更复杂的场景?还不知道。
不过,即使只是概念验证,它已经做了一件很重要的事:指出了当前主流技术路线的天花板。
当所有人都盯着"让模型想得更深"的时候,有人开始问"模型能不能学得更久"——这个问题本身就有价值。
主要来源:
- arXiv: Learning, Fast and Slow: Towards LLMs That Adapt Continually (2026-05)
- 项目主页
- 36氪: 伯克利神作背刺OpenAI:持续学习才是真神 (2026-05-19)