Kimi K3: Превью — 2,5 триллиона параметров + контекст в миллион токенов, следующий козырь Moonshot AI

Сигнал

Едва Kimi K2.6 объявил о июньском релизе, как уже просочилась информация о следующем флагмане Moonshot AI — Kimi K3. Перекрёстная проверка из нескольких источников подтверждает: K3 находится на стадии интенсивного внутреннего тестирования и ожидается к официальному выпуску в третьем квартале этого года.

Ключевые характеристики впечатляют: общий размер модели превышает 2,5 триллиона параметров, а внутренние эксперименты уже продемонстрировали работу с контекстом, значительно превышающим 1 миллион токенов.

Ключевые новшества

2,5 триллиона параметров: очередной скачок архитектуры MoE

Kimi K2.6 уже был моделью MoE с 1,1 триллиона параметров. K3 поднимает масштаб до 2,5 триллиона и выше. Это не простое «наращивание параметров» — в архитектуре MoE (Mixture of Experts, смесь экспертов) при каждом выводе активируется лишь часть экспертов, что позволяет контролировать фактические вычисления, одновременно обеспечивая качественный рост ёмкости модели и плотности знаний.

Примечательно, что DeepSeek V4 Flash / Pro уже снизили стоимость контекста в 1 миллион токенов до крайне низкого уровня, а Kimi K3 выбирает путь дальнейшего усиления в том же направлении. Это говорит о том, что длинный контекст + масштабная архитектура MoE стали консенсусным техническим маршрутом среди ведущих китайских моделей.

Контекст в миллион токенов: не техническая проблема, а проблема вычислительных ресурсов

По данным внутренних источников, основная причина, по которой K3 не предоставляет контекст в 1 миллион токенов публично, — это не техническое ограничение, а вычислительные ресурсы.

В этом утверждении заключён большой объём информации. Оно подразумевает два момента:

Способности модели готовы — во внутренней тестовой среде контекст свыше 1 миллиона токенов уже обработан с приемлемыми результатами.
Стоимость вывода — настоящее препятствие — контекст в миллион токенов означает, что потребление памяти KV-кэшем растёт линейно, предъявляя экстремальные требования к видеопамяти и пропускной способности GPU-кластера.

Это также объясняет, почему Moonshot AI после запуска Kimi K2.6 одновременно усилила продвижение на различных платформах-ретрансляторах. Механизм «набирай токены — получай карты JD» по сути расширяет сценарии использования и маховик данных, одновременно накапливая операционный опыт для будущих вычислительных потребностей K3.

Переходная роль K2.6

Позиционирование Kimi K2.6 ясно: это не конечная цель, а мост к K3.

Ключевые слова K2.6 — «открытые веса» и «создан для агентов» — 1,1 триллиона параметров, полностью открытые веса, специализированная разработка для длительного автономного выполнения задач. Эти характеристики закладывают экосистемный фундамент для K3: сообщество разработчиков может сначала освоить рабочие процессы агентов на архитектуре MoE с помощью K2.6, а затем плавно перейти на K3.

Однако есть отзывы пользователей о нестабильной работе K2.6 на некоторых базовых задачах. Некоторые прямо заявляют: «пока не выйдет K3, пользоваться невозможно». Эта «боль переходного периода» не редкость в циклах быстрого выпуска моделей, но она также означает, что Moonshot AI должна дать более убедительный ответ по стабильности K3.

Влияние на индустрию

Выпуск Kimi K3 напрямую изменит конкурентный ландшафт китайских больших языковых моделей:

Гонка длинных контекстов: В настоящее время лишь несколько китайских моделей способны обрабатывать контекст на уровне миллиона токенов. Если K3 стабильно заработает, он обеспечит значительное преимущество в анализе документов, понимании кодовых баз и анализе длинных видеозаписей.
Открытый исходный код против закрытого: K2.6 уже выбрал путь открытых весов, и K3, вероятно, продолжит эту линию. Это ещё больше сузит пространство для закрытых моделей.
Экосистема агентов: Контекст в миллион токенов + архитектура MoE означают, что агенты смогут нести больше «памяти» и «инструментов», выполняя более длительные автономные задачи.

Сигнал

Ключевые новшества

2,5 триллиона параметров: очередной скачок архитектуры MoE

Контекст в миллион токенов: не техническая проблема, а проблема вычислительных ресурсов

Переходная роль K2.6

Влияние на индустрию

Рекомендации к действию

Похожие материалы

GPT-6 входит в фазу выравнивания безопасности: 5-6 триллионов параметров, математическое рассуждение 92,5%,通过率 кода 96,8%

MiniMax M3 выходит в этом месяце: нацелен на офисные сценарии с масштабным обновлением агентных способностей

GLM-5.1 выходит на 0G Private Computer: что значит запуск 754B MoE-модели внутри TEE