OpenAI 把 GPT-5 级推理塞进实时语音：三个新模型，把语音 Agent 的架构重写了

语音 Agent 一直有两个痛点：贵，而且难编排。

贵不是因为模型听不懂人话——这问题早就解决了。难是因为上下文天花板逼着企业在每次部署里塞进 session 重置、状态压缩、状态重建这些胶水层。每次对话超过一定长度，Agent 就像得了失忆症，得重新开始。

OpenAI 新发布的三个语音模型，想从根上把这个问题拆掉。

不是一个大模型包揽一切，而是三个专用模型分工

GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。三个模型，三个职责：

Realtime-2 是 OpenAI 第一个「具备 GPT-5 级推理能力」的语音模型。官方说法是能处理困难请求并保持对话自然流畅。128K token 上下文窗口——这是关键数字，意味着语音对话可以持续更久而不失忆。

Realtime-Translate 理解 70 多种语言，翻译成 13 种语言，翻译速度和说话者语速同步。不是先录下来再翻译的那种，是实时跟上的。

Realtime-Whisper 是全新的语音转文字转写模型。

这三个动作不再挤在一个大模型里。Realtime-2 技术上当然能做转写，但 OpenAI 选择把不同任务路由到专用模型。企业可以给每个任务分配最合适的模型，而不是把所有东西都塞进一个全能语音系统。

过去做语音 Agent，工程师的典型做法是：一个大模型搞定转写、理解、生成、翻译。好处是简单——一个 API 调用。坏处是所有任务共享上下文窗口，而且一个任务的 token 消耗会挤占另一个任务的空间。

OpenAI 现在的做法更像微服务架构的思路：每个语音任务有专用模型，各管各的上下文，通过编排层协调。

这对工程师意味着什么？你需要考虑编排架构，而不仅仅是模型质量——具体来说，你的栈能不能把离散的语音任务路由到专用模型，能不能在 128K token 上下文窗口下管理状态。

Mistral 的 Voxtral 模型也在做类似的分离——把转写和其他任务拆开，同样瞄准企业市场。语音 AI 这个赛道开始拥挤了。

这个拆分本身技术难度不低，但方向是对的。企业语音场景不是聊天——它需要转写准确率、多语言支持、推理能力、低延迟，这些需求本质上是不同的优化目标。用一个大模型硬扛，就像用一把瑞士军刀做外科手术——什么都能干，但什么都不是最专业的。

128K 上下文窗口对语音来说是个质变。之前的语音模型基本在几十 K 的量级，对话稍微复杂一点就丢失上下文。现在这个天花板被推高了。

值得关注的点：定价还没有公布。如果三个模型分开调用的成本比一个大模型还高，企业可能不会买账。OpenAI 需要在性能和经济性之间找到一个让人愿意迁移的平衡点。

主要来源：