伯克利的 FST 框架：大模型正在变成"会做题但学不会新东西的天才"

过去两年，所有头部 AI 实验室都在做同一件事：让模型想得更深。

推理链更长、思考步骤更多、o1/Claude R1 式的"先想再做"——这条技术路线共识强到什么程度？强到你今天去一线投资人那里，如果不能讲清楚自己怎么"做推理"，连第一轮的门都进不去。

伯克利的研究者现在问了一个没人愿意问的问题：如果我们集体押注的这条路，正在让模型变成"会做题但学不会新东西的天才"，那我们押的到底是什么？

一个实验，暴露了整个行业的盲区

他们的实验设计很简单。

让同一个大语言模型连续学三个任务：

每个任务只训 200 步就切换到下一个，模拟真实世界里"任务在不断变化"的学习场景。

结果：用主流的强化学习范式训练，模型在第一关 HoVer 上学会了。到了第二关 CodeIO，完全卡住。学不动。

不是说学得慢——是根本学不会。之前学过的 HoVer 的知识还在，但新任务需要的学习能力已经没了。这就是灾难性遗忘的另一种形态：不是忘了旧的，是丧失了学新的能力。

他们提出的框架叫 FST（Fast and Slow Training），灵感来自认知科学中的双系统理论。

核心思路是分层：

用 FST 跑同样的实验，同一个模型，三关都过了。

AI 工程师 Dan McAteer 看了这篇论文后做了一个大胆的判断：2026 年持续学习即将爆发，而 FST 框架的突破"远超推理变革 1000 倍"。

这个说法可能夸张了，但方向是对的。

想想现在的大模型是怎么"更新"的：要加新知识，就得重新微调甚至重新训练整个模型。成本高、周期长、而且学完新东西旧东西就忘了。

FST 的思路是让模型像人一样学习——不是每次学新东西都重写大脑，而是在已有的基础上叠加新的理解。如果这条路走通了，模型更新的成本和时间会呈数量级下降。

这是预印本，不是经过同行评审的正式论文。实验规模也有限——三个任务、每个 200 步，和真实世界中模型需要持续学习的复杂度差了很远。

更重要的是，FST 目前只是在一个特定实验设置下证明了可行性。它能不能扩展到更大的模型、更多的任务、更复杂的场景？还不知道。

不过，即使只是概念验证，它已经做了一件很重要的事：指出了当前主流技术路线的天花板。

当所有人都盯着"让模型想得更深"的时候，有人开始问"模型能不能学得更久"——这个问题本身就有价值。

主要来源：