NVIDIA Dynamo 重构 AI 推理栈:为 Agent 时代重新设计基础设施

NVIDIA Dynamo 重构 AI 推理栈:为 Agent 时代重新设计基础设施

传统 AI 推理栈有一个致命假设:每次请求都是独立的。但 Agent 时代彻底打破了这个假设。

痛点

Agent 编码会话的典型行为模式:

传统推理假设:
Request 1 → 计算 → Response 1
Request 2 → 计算 → Response 2
Request 3 → 计算 → Response 3

Agent 编码会话的真实行为:
Session: 同一个代码仓库的调试任务
  ├─ Request 1: 读取文件 A
  ├─ Request 2: 读取文件 A + 文件 B(重复计算文件 A 的上下文)
  ├─ Request 3: 运行测试 + 读取文件 A + B + C(又重复计算)
  ├─ Request 4: 修复代码 + 重新运行测试(继续重复...)
  └─ ... 200+ 次调用后,大量 token 预算浪费在重复计算上

一个 Agent 编码会话可能产生数百次 API 调用,其中大部分上下文已经在之前的调用中计算过。传统推理栈对这些重复视而不见。

Dynamo 做了什么

核心能力

能力解决的问题效果
KV 感知路由Agent 请求携带大量重叠上下文避免重复计算 KV cache
上下文复用同一会话中的重复 token显著降低每 token 成本
智能调度多个 Agent 并发请求的 GPU 分配提升 GPU 利用率
分布式推理超大模型跨节点部署降低单次推理延迟

2.7 倍性能提升

在 Google Cloud Next 大会上,NVIDIA 团队展示了 Dynamo 如何在同等硅片上实现 2.7 倍性能提升。这不是通过更好的芯片实现的,而是通过:

  • 消除 Agent 会话中的冗余 KV cache 计算
  • 更智能的请求路由,将具有相似上下文的请求路由到相同的 GPU
  • 优化 Agent 场景下的批处理策略

为什么这件事重要

推理成本是 Agent 规模化的瓶颈

Agent 编码工具的 API 收入增长速度远超预期:

  • GPT-5.5 发布一周内,Codex 收入翻倍
  • API 收入增速是之前任何版本的两倍
  • Agent 工具的 token 消耗量是传统聊天应用的 10-100 倍

如果推理成本不能随 Agent 使用量线性扩展,Agent 商业模式的可持续性将受到挑战。Dynamo 是 NVIDIA 对这个问题的一次系统性回应。

重新定义”推理”的含义

传统推理(2023-2025):
  输入 → 模型 → 输出
  关注点:延迟、吞吐量

Agentic 推理(2026):
  输入 → [会话状态 + 上下文历史 + 工具调用] → 模型 → [输出 + 状态更新]
  关注点:上下文复用、状态管理、多请求协调

Dynamo 是第一个从”Agentic 推理”的假设出发重新设计整个推理栈的项目,而不是在现有架构上打补丁。

与 nvext 的配合

同周发布的 nvext(Full-Stack Optimizations for Agentic Inference with NVIDIA Dynamo)进一步扩展了 Dynamo 的能力:

  • 全栈优化:从芯片级到应用级的端到端优化
  • 与 Dynamo 深度集成:共享 KV cache 管理和路由策略
  • 针对 NVIDIA 硬件定制:利用 TensorRT、CUDA Graph 等底层优化

技术架构

KV 感知路由的工作原理

Agent 请求进入 Dynamo 路由层:

          提取请求的 KV cache 签名

     ┌──────────────┼──────────────┐
     ↓              ↓              ↓
 GPU 1 有匹配的    GPU 2 有匹配    无匹配的 GPU
  KV cache         KV cache      → 选择最优 GPU
     ↓              ↓              并创建新 cache
  复用 cache      复用 cache
     ↓              ↓
  跳过 KV 计算    跳过 KV 计算

这种路由策略在 Agent 场景下特别有效,因为同一 Agent 会话中的连续请求通常有大量重叠的上下文。

与传统推理引擎的对比

特性vLLMTensorRT-LLMNVIDIA Dynamo
KV cache 管理基本优化KV 感知路由
Agent 会话优化核心设计目标
上下文复用有限有限原生支持
多 Agent 调度内置
开源部分

对开发者的影响

降低 Agent 运行成本

对于运行大量 Agent 工作流的团队:

  • 直接成本下降:KV cache 复用减少重复计算
  • 延迟改善:路由优化减少冷启动时间
  • 吞吐量提升:智能批处理提高 GPU 利用率

架构选择的变化

过去:
  Agent 框架 → 推理 API(OpenAI/Anthropic)→ 结果
  
Dynamo 时代:
  Agent 框架 → Dynamo 路由层 → 最优推理后端 → 结果

                          自动选择本地/云端
                          复用已有 KV cache
                          智能批处理

与国产模型的适配

Dynamo 作为一个开源推理优化层,理论上可以适配任何支持标准 API 的模型:

  • Qwen 系列、GLM、DeepSeek 等国产模型可以受益于 Dynamo 的 KV cache 管理
  • 对于需要大规模部署国产模型 Agent 的企业,Dynamo 提供了一个通用的推理优化层
  • 关注 Dynamo 社区对国产模型适配的进展

竞争格局

推理优化赛道

项目公司定位与 Dynamo 差异
DynamoNVIDIAAgentic 推理全栈优化基准
vLLM社区通用推理引擎更通用,缺少 Agent 专用优化
TensorRT-LLMNVIDIAGPU 推理优化侧重单模型推理,非 Agent
SGLang社区推理框架有 KV cache 优化,但非 Agent 专用
SageServeSageAI多模型推理侧重多模型路由

NVIDIA 的战略意图

Dynamo 的发布是 NVIDIA 在 AI 推理层的又一次布局:

  1. 芯片层:GPU(Blackwell、Rubin)
  2. 互连层:NVLink、Quantum InfiniBand
  3. 推理层:TensorRT-LLM、Dynamo
  4. 生态层:CUDA、NGC

通过 Dynamo,NVIDIA 正在确保即使推理工作负载从”单次请求”转向”Agent 会话”,其基础设施仍然是最优选择。

行动建议

如果你在运行 Agent 编码工具

  • 评估 Dynamo 对当前推理成本的优化潜力:重点关注 KV cache 命中率
  • 测试场景:对比使用 Dynamo 前后,相同 Agent 工作流的 token 消耗和延迟
  • 关注开源社区:Dynamo 是开源项目,社区贡献可能快速扩展其对不同模型和框架的支持

如果你在构建 AI 应用

  • 将推理优化纳入架构设计:Agent 应用的推理成本模型与传统应用完全不同
  • 关注 KV cache 策略:这可能是 Agent 时代最重要的推理优化方向
  • 考虑多后端架构:Dynamo 的路由层允许动态选择最优推理后端

如果你在做推理基础设施

  • Dynamo 为 Agentic 推理设立了一个新的基准
  • 关注 Dynamo 的技术细节:KV 感知路由、上下文复用策略、智能调度算法
  • 评估你的推理栈是否已经针对 Agent 场景优化

总结

NVIDIA Dynamo 的意义不在于它做了什么新东西(KV cache 复用、智能路由都不是新概念),而在于第一个把这些优化系统性地组织在”Agentic 推理”的范式下。当 AI 应用从聊天机器人进化为自主 Agent 时,推理基础设施必须随之进化。Dynamo 是 NVIDIA 对这个进化的回答。

对于开发者来说,最直接的信号是:Agent 应用的推理成本还有巨大的优化空间。如果你的 Agent 系统还在用传统推理引擎,你可能正在为重复的 KV cache 计算支付不必要的费用。

主要来源: