従来のAI推論スタックには致命的な仮定がある:すべてのリクエストは独立している。エージェント時代はこの仮定を完全に打ち砕いた。
課題
エージェントコーディングセッションの典型的な動作パターン:数百回のAPI呼び出しが発生し、その大部分のコンテキストは以前の呼び出しで既に計算されている。従来の推論スタックはこの冗長性を無視している。
Dynamoの成果
- KV認識ルーティング: 重複するコンテキストを持つリクエストを同じGPUにルーティング
- コンテキスト再利用: 同一セッション内の繰り返しトークンをキャッシュ
- スマートスケジューリング: 複数のエージェントリクエストのGPU割り込みを最適化
Google Cloud NextでNVIDIAは同等シリコン上で2.7倍の性能向上を実証。
まとめ
NVIDIA Dynamoの意義は、新しいことをしたからではなく(KVキャッシュ再利用、スマートルーティングは新しくない)、これらの最適化を「エージェント推論」パラダイムの下に体系的に整理した最初のプロジェクトであることにある。
ソース: