C
ChaoBro

Google、Gemini APIを分解:user/modelの役割区分をなくし、各アクションを独立したstepに

Google、Gemini APIを分解:user/modelの役割区分をなくし、各アクションを独立したstepに

GoogleがGeminiのAPI構造を変更している。変更は大きくないが、方向性は明確だ。

以前のGemini APIのインタラクションモデルは標準的な会話形式だった:userがメッセージを送り、modelが返信する。ラウンドごとに役割がはっきり分かれていた。

現在、Googleはそのモデルを解体した。新しいGemini Interactions APIでは、userとmodelの厳密な役割区別はもうない。各思考、各ツール呼び出し、各出力が独立したstepとして表現される。

これは何を意味するのか?

「会話」から「ワークフロー」へ

標準会話APIはQ&Aに適している。あなたが問い、私が答える。シンプルで清潔。

だがエージェントシナリオは違う。エージェントが複雑なタスクを完了するとき、内部のステップは混沌としている:まず考え、ツールAを呼び出し、結果を得てもう一度考え、ツールBを呼び出し、途中でユーザーの入力が必要だと気づき、一時停止して待つ。

古いuser/model役割モデルはこのシナリオでぎこちない。エージェントの内部思考をuserメッセージとしてAPIに偽装するか、ツール呼び出しの結果をmodelレスポンスとしてパッケージする必要があった。インターフェースと実際の振る舞いが一致していない。

新しいstepモデルはこの複雑さをそのまま公開する。各アクションがファーストクラス市民。APIはもうそれらを会話の殻に詰め込もうとしない。

具体的に何が変わるのか

Googleの公式ブログが重要な説明をした:

「厳密な'user'と'model'の役割の代わりに、すべてのアクション(思考からツール呼び出しまで)が独自のstepとして表現される。」

つまり開発者は:

  • エージェントの完全な思考チェーンを最終回答だけでなく見られる
  • エージェント実行中に特定のstepに介入できる、ラウンド終了まで待たなくていい
  • マルチステップエージェントの実行プロセスをシリアライズ、永続化、リプレイできる

監査とデバッグが必要なエンタープライズシナリオで非常に実用的だ。

競合との比較

AnthropicのClaude APIはすでに同様の機能を持つ — message APIはtool_useとtool_resultを独立したメッセージタイプとしてサポートする。OpenAIのResponses APIもこの方向に向かっている。

Googleの今回の変更の特別之处在于:既存のAPIにパッチを当てたのではなく、インタラクションモデルを再設計したことだ。これはGoogleがより複雑なマルチエージェントコラボレーションシナリオを準備していることを示唆する。

各stepが独立してアドレサブルなら、理論的に複数のエージェントが同じInteraction内でそれぞれのstepを交差実行でき、互いに干渉しない。

いつ使えるようになるか

Googleはこれを「evolving」と表現している — まだ進行中だということ。GAのタイムラインは示されていない。

ただし、Google Cloud Next 2026で既に類似のエージェントワークフロー概念がデモンストレーションされていることを考慮すると、このAPI変更は間もなくGAになる可能性が高い。

所感

これは「開発者は感じないがアーキテクチャに影響深远な」変更だ。一般ユーザーは何の変化にも気づかないが、Geminiの上に構築する人はエージェント開発がはるかにスムーズになることに気づくだろう。

注目に値する后续:Googleがこの新しいstepモデルを中心に、AnthropicのMCPやGoogle自身のADKに似たエージェントオーケストレーションツールをリリースするかどうか。もしあれば、Geminiエコシステムのエージェント開発敷居は明らかに下がる。

主な情報源: