Традиционный стек ИИ-инференса имеет фатальное предположение: каждый запрос независим. Эпоха агентов разрушает это предположение.
Проблема
Сессии агентного кодирования могут генерировать сотни API-вызовов, большинство из которых имеют контекст, уже вычисленный в предыдущих вызовах. Традиционные стеки инференса игнорируют эту избыточность.
Что делает Dynamo
- Маршрутизация с учётом KV: Направление запросов с похожим контекстом на один GPU
- Повторное использование контекста: Кэширование повторяющихся токенов в одной сессии
- Умное планирование: Оптимизация распределения GPU для нескольких запросов агентов
На Google Cloud Next NVIDIA продемонстрировала улучшение производительности в 2.7 раза на том же кремнии.
Итог
Значимость NVIDIA Dynamo не в том, что он делает что-то новое (повторное использование KV-кэша не ново), а в том, что это первый проект, систематически организовавший эти оптимизации под парадигмой «агентного инференса».
Источники: