OpenAI выпускает три голосовые модели реального времени: GPT-Realtime-2 приносит рассуждения уровня GPT-5 голосовым агентам

OpenAI сегодня не проводила пресс-конференцию. Компания просто добавила три новые модели прямо в API. Этот подход «тихий запуск, API в первую очередь» стал нормой в этом году.

Три модели — GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Первая — главная, но и остальные заслуживают внимания.

GPT-Realtime-2: Голосовые агенты наконец могут «думать»

Проблема предыдущих голосовых моделей была очевидна — они могли слушать и говорить, но рассуждения были недостаточно сильными. Пользователь говорил, модель транскрибировала текст, выполняла рассуждение, затем конвертировала обратно в речь. Качество рассуждения определяло качество разговора.

Ключевое изменение GPT-Realtime-2 — встраивание рассуждений уровня GPT-5 непосредственно в голосового агента. Модель теперь рассуждает напрямую в аудиопотоке.

Big Bench Audio вырос с 81,4% до 96,6%, Audio-MMLU — с 68,3% до 88,2%. Скачок на 15 пунктов означает, что голосовые модели приблизились к текстовым моделям в сложных задачах рассуждения.

Важнее всего: обработка прерываний и сохранение контекста. Предыдущие агенты теряли состояние при прерывании. Realtime-2 поддерживает восстановление контекста после прерывания.

Перевод и транскрипция: 70 на входе, 13 на выходе

GPT-Realtime-Translate поддерживает потоковый перевод с 70 языков на 13 языков вывода. GPT-Realtime-Whisper — ускоренная версия транскрипции.

Практическое влияние

Голосовые агенты начинают соответствовать требованиям «сотрудников в реальном времени». Цены ещё не объявлены — рассуждения уровня GPT-5 потребляют значительно больше токенов.

Не стоит перестраивать рабочий процесс под голосовых агентов прямо сейчас. Подождите технической документации и данных о задержке.

Основные источники: OpenAI Blog, @OpenAIDevs

GPT-Realtime-2: Голосовые агенты наконец могут «думать»

Перевод и транскрипция: 70 на входе, 13 на выходе

Практическое влияние

Похожие материалы

Самая большая ловушка при написании LLM кода для комбинаторной оптимизации: просишь оптимизировать — модель только всё портит

Чем детальнее оценочные критерии, тем больше модель находит лазейки: взлом системы вознаграждения в обучении с подкреплением на основе рубрик

RLHF тихонько разрушает «честность» ИИ: в чём суть Semantic Reward Collapse