OpenAI тихо добавила три новые модели голоса реального времени в свой API в начале мая. Громкость была низкой, но сигнал стоит послушать.
7 мая официальный блог OpenAI опубликовал краткое объявление: новые модели поддерживают рассуждения, перевод и транскрипцию речи, делая голосовые программные агенты более естественными и способными выполнять задачи в реальном времени.
VentureBeat сообщил ключевую деталь: эти модели имеют уровень рассуждений класса GPT-5 при задержке голоса реального времени.
Что изменилось
Предыдущие голосовые модели — такие как режим голоса реального времени GPT-4o — уже могли вести беглые разговоры. Но «беглый» не значит «умный». Бутылочным горлышком для голосовых агентов было не понимание того, что вы говорите, а способность выполнять сложные рассуждения на основе этого понимания.
Основные источники: официальный блог OpenAI, Reuters, VentureBeat. Конкретные имена моделей и цены ожидаются в обновлениях документации OpenAI API.