大多数 AI 语音对话系统的工作方式是:先有一个语言模型,然后在外面套一层语音转文字、文字转语音、延迟管理的壳。OpenAI 的 Realtime API 是这个思路,Google 的 Gemini Live 也是。
Thinking Machines 选了另一条路。
5 月 11 日,这家公司展示了一个预览版:把"交互性"——包括语音和视频——直接作为模型的内在能力来训练,而不是事后加上去的外挂层。他们叫它"interaction models"。
两种方式的区别在哪
用个类比。传统的方案像是给一个只会写字的人配一个翻译官——他先写文字,翻译官念出来,听到对方的回答再翻译回文字给他。Thinking Machines 的方案是直接训练一个会说话的人。
区别在于延迟和自然度。外挂层方案每经过一层都会增加延迟,而且信息在文字和语音之间反复转换,总会有损耗。内置交互能力的模型可以直接在语音层面处理信息,理论上能做到更低的延迟和更自然的对话节奏。
Thinking Machines 在演示中展示了近实时的语音和视频对话。具体延迟数字没有公布,但他们的论点是:当交互性是模型的原生能力时,扩大模型规模会让它同时变得更聪明和更好的协作者——这两个目标是同一件事,不是两个需要分别优化的指标。
一个值得注意的技术主张
他们的核心论断是:交互性不应该被当作推理能力的一个"下游应用",而应该被当作基础能力来训练。
这背后的直觉是:人类的智能本身就是在持续交互中形成的。我们不是在脑子里想完一段话再说出来,而是在说的过程中思考。如果 AI 要把这种能力学到骨子里,也许需要从一开始就把交互性放进训练目标里,而不是在训练完之后加一层语音接口。
但有几个问题还没答案
第一是成本。内置交互能力的模型训练成本肯定比纯文本模型高。语音和视频数据的数据量和处理复杂度都远高于文本。这个成本能不能在推理阶段省回来——或者说,省回来的幅度够不够抵消训练成本的增加——现在还是未知数。
第二是灵活性。外挂层方案的一个好处是模型和接口可以独立迭代。你可以升级语音引擎而不重新训练模型,也可以换模型而不改语音层。内置方案把两者耦合在一起,意味着每次升级都要整体重新训练或微调。
第三是竞争格局。OpenAI 和 Google 已经在实时语音对话领域跑了一年多,产品成熟度领先不少。Thinking Machines 的技术路线如果确实有本质优势,需要拿出比"延迟更低"更有说服力的实际用例来证明。
为什么值得关注
不是因为 Thinking Machines 明天就能颠覆 OpenAI。而是因为它提出了一个架构层面的问题:当前的 AI 对话系统设计,到底是不是最优解?
这个问题在 2023 年可能没人问——那时候大家还在努力把模型训练到能正常对话的水平。但到了 2026 年,当基础对话能力已经不再是瓶颈,架构的选择开始变得重要。
我会在接下来几个月持续关注这个方向。如果 Thinking Machines 的路径被验证,下一波 AI 应用的竞争可能不在模型能力本身,而在"谁把交互性设计得更自然"。
主要来源:
- VentureBeat: Thinking Machines interaction models preview
- Thinking Machines 官方博客