C
ChaoBro

DeepSeek-V4: Гибридное сжатое внимание + оптимизатор Muon — как переписать эффективность обучения

DeepSeek-V4: Гибридное сжатое внимание + оптимизатор Muon — как переписать эффективность обучения

Ключевые технические открытия

Инновация 1: Система гибридного сжатого внимания

Параметр Стандартное Attention Гибридное сжатие Улучшение
Сложность O(n²) O(n × log n) ~10-100x
Память Полный KV Cache Послойное сжатие Сокращение 60-80%

Инновация 2: Оптимизатор Muon

Adam: Поэлементная адаптивная скорость обучения
Muon: Матрично-структурированное направление оптимизации

Оценка сообщества: ускорение на 15-25% — экономия тысяч GPU-часов.

Вывод

Инновационный путь DeepSeek-V4 — это архитектурная инновация, а не гонка масштабов.