C
ChaoBro

OpenAI выпускает три модели голосового API реального времени, расширяя возможности голосовых агентов

OpenAI выпускает три модели голосового API реального времени, расширяя возможности голосовых агентов

OpenAI тихо добавила три новые модели голоса реального времени в свой API в начале мая. Громкость была низкой, но сигнал стоит послушать.

7 мая официальный блог OpenAI опубликовал краткое объявление: новые модели поддерживают рассуждения, перевод и транскрипцию речи, делая голосовые программные агенты более естественными и способными выполнять задачи в реальном времени.

VentureBeat сообщил ключевую деталь: эти модели имеют уровень рассуждений класса GPT-5 при задержке голоса реального времени.

Что изменилось

Предыдущие голосовые модели — такие как режим голоса реального времени GPT-4o — уже могли вести беглые разговоры. Но «беглый» не значит «умный». Бутылочным горлышком для голосовых агентов было не понимание того, что вы говорите, а способность выполнять сложные рассуждения на основе этого понимания.

Основные источники: официальный блог OpenAI, Reuters, VentureBeat. Конкретные имена моделей и цены ожидаются в обновлениях документации OpenAI API.