C
ChaoBro

Kimi использует архитектуру DeepSeek, DeepSeek использует оптимизатор Kimi: теория «открытой симбиозы» китайских моделей

Kimi использует архитектуру DeepSeek, DeepSeek использует оптимизатор Kimi: теория «открытой симбиозы» китайских моделей

Вывод: «Открытый симбиоз» китайских моделей переписывает правила конкуренции

В конце апреля 2026 года сообщество ИИ заметило примечательный феномен: базовая архитектура Kimi K2.6 наследует дизайн DeepSeek v3, а оптимизатор обучения DeepSeek V4 происходит от оптимизатора Muon команды Kimi. Это не простое «заимствование» — это технологический цикл на основе открытых лицензий. Обе стороны продолжают развиваться на основе инноваций друг друга, в конечном итоге достигая производительности, сопоставимой с закрытыми моделями, при стоимости обучения в 1/8 раза.

Эта модель «кросс-инноваций» становится уникальным конкурентным преимуществом китайского открытого ИИ.

Технический разбор кросс-инноваций

Kimi K2.6 -> Наследование архитектуры DeepSeek v3

Kimi K2.6 (Moonshot AI) на уровне архитектуры приняла дизайн MoE (смешанные эксперты) + MLA (многоголовое латентное внимание) от DeepSeek v3.

Измерение Архитектура DeepSeek v3 Эволюция Kimi K2.6
Параметры 671B всего, 37B активных Расширено до 1.6T
Контекстное окно 128K Публичное 256K, аппаратное ограничение 1M
Эффективность вывода MLA снижает KV Cache В сочетании с проприетарным планированием
Способности агента Базовый вызов инструментов Лидер в HLE, DeepSearchQA

Kimi K2.6 усилила способности агента с использованием инструментов, показывая выдающиеся результаты в HLE, DeepSearchQA и задачах программной инженерии.

DeepSeek V4 -> Внедрение оптимизатора Muon от Kimi

DeepSeek V4 внедрила оптимизатор Muon в своё обучение — изначально разработанный командой Kimi/Moonshot AI.

  • Более эффективное обновление градиентов: Более стабильная сходимость в архитектуре MoE по сравнению с традиционным AdamW
  • Меньшее использование VRAM: Меньшее состояние оптимизатора позволяет больший размер батча
  • Совместимость с китайскими чипами: Лучшая адаптация на Huawei Ascend NPU

DeepSeek V4 дополнительно изобрела новую архитектуру внимания, одновременно улучшив эффективность обучения и вывода.

Сравнение производительности

Модель Оценка Параметры Контекст Стоимость API (vs GPT-5.5)
Kimi K2.6 73 1.6T 256K-1M ~1/8
DeepSeek V4 Flash 73 N/A 1M ~1/8
DeepSeek V4 Pro 73 N/A 1M ~1/10
Gemma 4 31B 72 31B 128K ~1/5
Qwen3.6 27B 71 27B 128K ~1/6

Ключевое наблюдение: Топ-3 — Kimi K2.6, DeepSeek V4 Flash/Pro — все набирают 73 балла, занимая первое место. Учитывая, что их стоимость API составляет лишь 1/8–1/10 от GPT-5.5, преимущество по соотношению цена/качество чрезвычайно значимо.

Рекомендации

  • Для разработчиков: Приоритетно тестируйте Kimi K2.6 для сценариев агентов/инструментов; DeepSeek V4 Pro для рассуждений/математики/кодинга
  • Для инвесторов: Модель «симбиотической эволюции» китайских открытых моделей формирует коллективную конкурентоспособность

Источники