OpenAI が5月初めに API に3つの新しいリアルタイム音声モデルを投入した。音量は小さかったが、信号は值得倾听。
5月7日、OpenAI の公式ブログが簡潔なアナウンスを公開:新モデルは推論、翻訳、音声認識をサポートし、音声ベースのソフトウェア Agent をより自然に、リアルタイムでタスクを完了できるようにすることを目的としている。
VentureBeat の報道は重要な情報を与えた:これらのモデルは GPT-5 クラスの推論能力を持ち、リアルタイム音声レイテンシーで動作する。
何が変わったか
以前の音声モデル——GPT-4o のリアルタイム音声モードなど——はすでに流暢な会話が可能だった。しかし「流暢」は「賢い」を意味しない。音声 Agent のボトルネックは「あなたの言っていることを理解できるか」ではなく、その理解の上に複雑な推論を行う能力があったかどうかだ。
主な情報源:OpenAI 公式ブログ、Reuters、VentureBeat。特定のモデル名と価格は OpenAI API ドキュメントの更新を待っています。