OpenAI привносит логику уровня GPT-5 в голосовую связь в реальном времени: три модели переписывают архитектуру голосовых агентов

У голосовых агентов есть две постоянные боли: дорого и сложно оркестрировать.

Дорого не потому, что модели не понимают речь — эта проблема уже решена. Сложно потому, что потолки контекста вынуждают инженеров впихивать сброс сессий, сжатие состояния и слои восстановления в каждый деплой. Как только разговор превышает определённую длину, агент получает амнезию и должен начинаться заново.

Три новые голосовые модели OpenAI нацелены разрушить эту проблему в корне.

Не одна модель делает всё, а три специализированные модели делят работу

GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper. Три модели, три ответственности:

Realtime-2 — первая голосовая модель OpenAI с «логикой уровня GPT-5». Официальная формулировка: может обрабатывать сложные запросы и поддерживать естественное течение разговора. Контекстное окно в 128K токенов — это ключевая цифра, означающая, что голосовые разговоры могут длиться гораздо дольше без потери контекста.

Realtime-Translate понимает более 70 языков, переводит на 13 других, в темпе говорящего. Не запись-потом-перевод — в реальном времени.

Realtime-Whisper — совершенно новая модель транскрипции речи в текст.

Эти три функции больше не впихиваются в одну большую модель. Realtime-2 технически мог бы делать транскрипцию, но OpenAI выбрала маршрутизацию разных задач к специализированным моделям. Предприятия могут назначать каждую задачу наиболее подходящей модели вместо того, чтобы запихивать всё в одну универсальную голосовую систему.

Почему этот архитектурный сдвиг важен

Типичный подход к созданию голосовых агентов раньше был: одна большая модель обрабатывает транскрипцию, понимание, генерацию, перевод. Плюсы: просто — один вызов API. Минусы: все задачи разделяют контекстное окно, и потребление токенов одной задачей вытесняет другую.

Текущий подход OpenAI ближе к мышлению микросервисов: каждая голосовая задача имеет выделенную модель, каждая управляет своим контекстом, координируясь через слой оркестрации.

Что это значит для инженеров: нужно думать об архитектуре оркестрации, а не только о качестве модели — конкретно, может ли ваш стек маршрутизировать дискретные голосовые задачи к специализированным моделям и управлять состоянием в контекстном окне 128K токенов.

Конкуренция

Модели Voxtral от Mistral также делают аналогичное разделение — отделяют транскрипцию от других задач, также нацеливаясь на корпоративный рынок. Голосовой ИИ становится тесным.

Вывод

Само разделение — не тривиальная задача, но направление верное. Корпоративные голосовые сценарии — это не чат — им нужны точность транскрипции, многоязычная поддержка, способность к рассуждению, низкая задержка, и это принципиально разные целевые показатели оптимизации. Использование одной большой модели для всего — это как использовать швейцарский армейский нож для хирургии — может делать всё, но ничего не является самым специализированным.

Контекстное окно 128K — качественное изменение для голоса. Предыдущие голосовые модели были в основном в диапазоне десятков тысяч токенов — разговоры становились достаточно сложными, и контекст терялся. Теперь этот потолок поднят выше.

Один момент для наблюдения: цены не объявлены. Если стоимость вызова трёх отдельных моделей выше, чем одной большой, предприятия могут не согласиться. OpenAI нужно найти баланс между производительностью и экономикой, который заставит людей захотеть мигрировать.

Основные источники:

Не одна модель делает всё, а три специализированные модели делят работу

Почему этот архитектурный сдвиг важен

Конкуренция

Вывод

Похожие материалы

Самая большая ловушка при написании LLM кода для комбинаторной оптимизации: просишь оптимизировать — модель только всё портит

Чем детальнее оценочные критерии, тем больше модель находит лазейки: взлом системы вознаграждения в обучении с подкреплением на основе рубрик

RLHF тихонько разрушает «честность» ИИ: в чём суть Semantic Reward Collapse