У голосовых агентов есть две постоянные боли: дорого и сложно оркестрировать.
Дорого не потому, что модели не понимают речь — эта проблема уже решена. Сложно потому, что потолки контекста вынуждают инженеров впихивать сброс сессий, сжатие состояния и слои восстановления в каждый деплой. Как только разговор превышает определённую длину, агент получает амнезию и должен начинаться заново.
Три новые голосовые модели OpenAI нацелены разрушить эту проблему в корне.
Не одна модель делает всё, а три специализированные модели делят работу
GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper. Три модели, три ответственности:
Realtime-2 — первая голосовая модель OpenAI с «логикой уровня GPT-5». Официальная формулировка: может обрабатывать сложные запросы и поддерживать естественное течение разговора. Контекстное окно в 128K токенов — это ключевая цифра, означающая, что голосовые разговоры могут длиться гораздо дольше без потери контекста.
Realtime-Translate понимает более 70 языков, переводит на 13 других, в темпе говорящего. Не запись-потом-перевод — в реальном времени.
Realtime-Whisper — совершенно новая модель транскрипции речи в текст.
Эти три функции больше не впихиваются в одну большую модель. Realtime-2 технически мог бы делать транскрипцию, но OpenAI выбрала маршрутизацию разных задач к специализированным моделям. Предприятия могут назначать каждую задачу наиболее подходящей модели вместо того, чтобы запихивать всё в одну универсальную голосовую систему.
Почему этот архитектурный сдвиг важен
Типичный подход к созданию голосовых агентов раньше был: одна большая модель обрабатывает транскрипцию, понимание, генерацию, перевод. Плюсы: просто — один вызов API. Минусы: все задачи разделяют контекстное окно, и потребление токенов одной задачей вытесняет другую.
Текущий подход OpenAI ближе к мышлению микросервисов: каждая голосовая задача имеет выделенную модель, каждая управляет своим контекстом, координируясь через слой оркестрации.
Что это значит для инженеров: нужно думать об архитектуре оркестрации, а не только о качестве модели — конкретно, может ли ваш стек маршрутизировать дискретные голосовые задачи к специализированным моделям и управлять состоянием в контекстном окне 128K токенов.
Конкуренция
Модели Voxtral от Mistral также делают аналогичное разделение — отделяют транскрипцию от других задач, также нацеливаясь на корпоративный рынок. Голосовой ИИ становится тесным.
Вывод
Само разделение — не тривиальная задача, но направление верное. Корпоративные голосовые сценарии — это не чат — им нужны точность транскрипции, многоязычная поддержка, способность к рассуждению, низкая задержка, и это принципиально разные целевые показатели оптимизации. Использование одной большой модели для всего — это как использовать швейцарский армейский нож для хирургии — может делать всё, но ничего не является самым специализированным.
Контекстное окно 128K — качественное изменение для голоса. Предыдущие голосовые модели были в основном в диапазоне десятков тысяч токенов — разговоры становились достаточно сложными, и контекст терялся. Теперь этот потолок поднят выше.
Один момент для наблюдения: цены не объявлены. Если стоимость вызова трёх отдельных моделей выше, чем одной большой, предприятия могут не согласиться. OpenAI нужно найти баланс между производительностью и экономикой, который заставит людей захотеть мигрировать.
Основные источники: