OpenAI сегодня не проводила пресс-конференцию. Компания просто добавила три новые модели прямо в API. Этот подход «тихий запуск, API в первую очередь» стал нормой в этом году.
Три модели — GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Первая — главная, но и остальные заслуживают внимания.
GPT-Realtime-2: Голосовые агенты наконец могут «думать»
Проблема предыдущих голосовых моделей была очевидна — они могли слушать и говорить, но рассуждения были недостаточно сильными. Пользователь говорил, модель транскрибировала текст, выполняла рассуждение, затем конвертировала обратно в речь. Качество рассуждения определяло качество разговора.
Ключевое изменение GPT-Realtime-2 — встраивание рассуждений уровня GPT-5 непосредственно в голосового агента. Модель теперь рассуждает напрямую в аудиопотоке.
Big Bench Audio вырос с 81,4% до 96,6%, Audio-MMLU — с 68,3% до 88,2%. Скачок на 15 пунктов означает, что голосовые модели приблизились к текстовым моделям в сложных задачах рассуждения.
Важнее всего: обработка прерываний и сохранение контекста. Предыдущие агенты теряли состояние при прерывании. Realtime-2 поддерживает восстановление контекста после прерывания.
Перевод и транскрипция: 70 на входе, 13 на выходе
GPT-Realtime-Translate поддерживает потоковый перевод с 70 языков на 13 языков вывода. GPT-Realtime-Whisper — ускоренная версия транскрипции.
Практическое влияние
Голосовые агенты начинают соответствовать требованиям «сотрудников в реальном времени». Цены ещё не объявлены — рассуждения уровня GPT-5 потребляют значительно больше токенов.
Не стоит перестраивать рабочий процесс под голосовых агентов прямо сейчас. Подождите технической документации и данных о задержке.
Основные источники: OpenAI Blog, @OpenAIDevs