OpenAI が3つのリアルタイム音声モデルを同時リリース、GPT-Realtime-2 が GPT-5 クラスの推論能力を音声エージェントに搭載

OpenAI は今日、プレスイベントを開かなかった。代わりに API に3つの新モデルを直接投入した。この「サイレントローンチ、API ファースト」のアプローチは、今年の標準的なやり方になっている。

3つのモデルは GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。前者が主役だが、脇役も決して trivial ではない。

GPT-Realtime-2：音声エージェントがついに「考える」ように

以前の音声モデルの問題は明確だった——聞けて話せても、推論能力が十分ではなかった。ユーザーが話し、モデルがテキストに文字起こしし、推論を実行し、音声に変換し直す。推論ステップが会話の品質を決定していたが、前世代の能力は「十分使える」レベルだった。

GPT-Realtime-2 の核心的な変化は、GPT-5 レベルの推論能力を音声エージェントに直接組み込んだ点にある。「文字起こし → 推論 → 音声化」のパイプラインではなく、モデルがオーディオストリーム内で直接推論を行うようになった。

ベンチマークでは、Big Bench Audio が 81.4% から 96.6% に、Audio-MMLU が 68.3% から 88.2% に上昇。数字だけではわからないが、15ポイントの飛躍は、音声モデルが複雑な推論タスクでテキストモデルの性能にようやく近づいたことを意味する。

さらに重要なのは中断処理とコンテキスト保持だ。以前の音声エージェントは中断されると状態を失っていた。Realtime-2 はリアルタイム中断からのコンテキスト回復をサポートする——実際の使用場面ではベンチマークスコアよりよほど有用だ。

GPT-Realtime-Translate は70の入力言語から13の出力言語へのリアルタイムストリーミング翻訳をサポートする。この組み合わせはやや恣意的に見えるが、主要な商用言語シナリオをカバーしている。

GPT-Realtime-Whisper は文字起こしの高速版。Whisper はすでに強力だったが、今回はレイテンシと長時間オーディオの処理を最適化した。

音声エージェントという分野は、これまでデモレベルの機能だった——技術は動くが、実用性は限定的だった。Realtime-2 が推論能力を GPT-5 レベルまで引き上げ、中断とコンテキストの問題を解決したことで、音声エージェントは「リアルタイム協業者」としての基本条件を満たし始めている。

ただし、価格はまだ発表されていない。GPT-5 レベルの推論能力を音声エージェントで使う場合、テキストよりはるかに多くのトークンを消費する。価格ページが更新されるまで、コストパフォーマンスの判断は待った方がいい。

また、ChatGPT の Voice Mode アップグレードも追随するはず。Voice Mode が Realtime-2 を直接搭載すれば、日常会話体験は質的に変化する——単に「賢くなる」だけでなく、本当にあなたのペースに追いつけるようになる。

音声エージェントのシナリオのために今すぐワークフローを再構築する必要はない。 技術ドキュメント、価格、実際のレイテンシデータが出てから、どのシナリオを移行する価値があるか判断すればよい。