OpenAI выпускает три модели голосового API реального времени, расширяя возможности голосовых агентов

OpenAI тихо добавила три новые модели голоса реального времени в свой API в начале мая. Громкость была низкой, но сигнал стоит послушать.

7 мая официальный блог OpenAI опубликовал краткое объявление: новые модели поддерживают рассуждения, перевод и транскрипцию речи, делая голосовые программные агенты более естественными и способными выполнять задачи в реальном времени.

VentureBeat сообщил ключевую деталь: эти модели имеют уровень рассуждений класса GPT-5 при задержке голоса реального времени.

Что изменилось

Предыдущие голосовые модели — такие как режим голоса реального времени GPT-4o — уже могли вести беглые разговоры. Но «беглый» не значит «умный». Бутылочным горлышком для голосовых агентов было не понимание того, что вы говорите, а способность выполнять сложные рассуждения на основе этого понимания.

Основные источники: официальный блог OpenAI, Reuters, VentureBeat. Конкретные имена моделей и цены ожидаются в обновлениях документации OpenAI API.

Что изменилось

Похожие материалы

Официальный релиз MCP-сервера от Chrome DevTools: ИИ-агенты для программирования наконец-то могут «видеть» браузер

Google I/O 2026: «Агентизация» поиска — это не обновление, а переписывание с нуля

Технология водяных знаков Google SynthID внедряется гигантами вроде OpenAI и Nvidia: отслеживание происхождения контента ИИ вступает в эпоху стандартизации