OpenAI 连发三款实时语音模型：GPT-Realtime-2 带 GPT-5 级推理进入语音代理

OpenAI 今天没有搞发布会，直接在 API 里塞了三款新模型。这种"静默发布 + API 先行"的打法，已经是今年的常规操作了。

三款模型分别是 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。前一个是主角，后两个是配角，但配角的功能也不简单。

GPT-Realtime-2：语音代理终于能"想"了

之前语音模型的问题很明确——能听能说，但脑子不够用。用户说一段话，模型转成文字，跑一遍推理，再转回语音。中间推理环节的能力直接决定了对话质量，而上一代的推理能力只能算够用。

GPT-Realtime-2 的核心变化是把 GPT-5 级别的推理能力直接嵌进了语音代理。不再是"转文字→思考→转语音"的三段式流水线，而是让模型在音频流中直接进行推理。

数据层面，Big Bench Audio 测试从 81.4% 跳到 96.6%，Audio-MMLU 从 68.3% 升到 88.2%。这两个数字本身不说明太多问题，但 15 个百分点的跃升意味着语音模型第一次在复杂推理任务上接近文本模型的表现。

更重要的是中断处理和上下文保持。之前的语音代理一旦被打断就会丢状态，Realtime-2 支持实时打断后恢复上下文——这对实际使用场景来说比跑分有用得多。

GPT-Realtime-Translate 支持从 70 种输入语言实时流式翻译到 13 种输出语言。这个组合看起来有些随意，但覆盖了主要的商业语言场景。

GPT-Realtime-Whisper 则是转录的加速版。Whisper 本身已经很强，这次优化了延迟和长音频处理能力。

语音代理这个赛道，之前更像是一个 demo 级的功能——技术能跑通，但实用性有限。Realtime-2 把推理能力拉到 GPT-5 级别，同时解决了中断和上下文问题，意味着语音代理开始具备作为"实时协作者"的基本条件。

但定价还没公布。GPT-5 级别的推理能力用在语音代理上，token 消耗会比纯文本高很多。等价格页更新后再判断性价比。

另外，ChatGPT 的 Voice Mode 升级应该会跟进。如果 Voice Mode 直接换上 Realtime-2，日常对话体验会有质的变化——不只是"更聪明"，而是能真正跟上你的节奏。

我不会现在就为语音代理场景重构工作流。 等技术文档出来、定价公布、实际延迟数据能拿到，再判断哪些场景值得迁移。