NVIDIA Dynamo перестраивает стек ИИ-инференса: инфраструктура для эпохи агентов

NVIDIA Dynamo перестраивает стек ИИ-инференса: инфраструктура для эпохи агентов

Традиционный стек ИИ-инференса имеет фатальное предположение: каждый запрос независим. Эпоха агентов разрушает это предположение.

Проблема

Сессии агентного кодирования могут генерировать сотни API-вызовов, большинство из которых имеют контекст, уже вычисленный в предыдущих вызовах. Традиционные стеки инференса игнорируют эту избыточность.

Что делает Dynamo

  • Маршрутизация с учётом KV: Направление запросов с похожим контекстом на один GPU
  • Повторное использование контекста: Кэширование повторяющихся токенов в одной сессии
  • Умное планирование: Оптимизация распределения GPU для нескольких запросов агентов

На Google Cloud Next NVIDIA продемонстрировала улучшение производительности в 2.7 раза на том же кремнии.

Итог

Значимость NVIDIA Dynamo не в том, что он делает что-то новое (повторное использование KV-кэша не ново), а в том, что это первый проект, систематически организовавший эти оптимизации под парадигмой «агентного инференса».

Источники: