Thinking Machines 的"交互模型"：把实时对话直接写进模型里，而不是靠 API 拼接

大多数 AI 语音对话系统的工作方式是：先有一个语言模型，然后在外面套一层语音转文字、文字转语音、延迟管理的壳。OpenAI 的 Realtime API 是这个思路，Google 的 Gemini Live 也是。

Thinking Machines 选了另一条路。

5 月 11 日，这家公司展示了一个预览版：把"交互性"——包括语音和视频——直接作为模型的内在能力来训练，而不是事后加上去的外挂层。他们叫它"interaction models"。

两种方式的区别在哪

用个类比。传统的方案像是给一个只会写字的人配一个翻译官——他先写文字，翻译官念出来，听到对方的回答再翻译回文字给他。Thinking Machines 的方案是直接训练一个会说话的人。

区别在于延迟和自然度。外挂层方案每经过一层都会增加延迟，而且信息在文字和语音之间反复转换，总会有损耗。内置交互能力的模型可以直接在语音层面处理信息，理论上能做到更低的延迟和更自然的对话节奏。

Thinking Machines 在演示中展示了近实时的语音和视频对话。具体延迟数字没有公布，但他们的论点是：当交互性是模型的原生能力时，扩大模型规模会让它同时变得更聪明和更好的协作者——这两个目标是同一件事，不是两个需要分别优化的指标。

他们的核心论断是：交互性不应该被当作推理能力的一个"下游应用"，而应该被当作基础能力来训练。

这背后的直觉是：人类的智能本身就是在持续交互中形成的。我们不是在脑子里想完一段话再说出来，而是在说的过程中思考。如果 AI 要把这种能力学到骨子里，也许需要从一开始就把交互性放进训练目标里，而不是在训练完之后加一层语音接口。

第一是成本。内置交互能力的模型训练成本肯定比纯文本模型高。语音和视频数据的数据量和处理复杂度都远高于文本。这个成本能不能在推理阶段省回来——或者说，省回来的幅度够不够抵消训练成本的增加——现在还是未知数。

第二是灵活性。外挂层方案的一个好处是模型和接口可以独立迭代。你可以升级语音引擎而不重新训练模型，也可以换模型而不改语音层。内置方案把两者耦合在一起，意味着每次升级都要整体重新训练或微调。

第三是竞争格局。OpenAI 和 Google 已经在实时语音对话领域跑了一年多，产品成熟度领先不少。Thinking Machines 的技术路线如果确实有本质优势，需要拿出比"延迟更低"更有说服力的实际用例来证明。

不是因为 Thinking Machines 明天就能颠覆 OpenAI。而是因为它提出了一个架构层面的问题：当前的 AI 对话系统设计，到底是不是最优解？

这个问题在 2023 年可能没人问——那时候大家还在努力把模型训练到能正常对话的水平。但到了 2026 年，当基础对话能力已经不再是瓶颈，架构的选择开始变得重要。

我会在接下来几个月持续关注这个方向。如果 Thinking Machines 的路径被验证，下一波 AI 应用的竞争可能不在模型能力本身，而在"谁把交互性设计得更自然"。

主要来源：