Stanford CS336 раскрывает правду о конвергенции архитектуры LLM: 90% основных моделей уже выглядят одинаково

Заключение

Преподаватель Стэнфордского CS336 (курс обучения LLM) Тацу недавно сделал нечто исключительно информационно плотное: он разобрал каждый основной LLM за последние 3 года и сравнил их архитектурные решения одно за другим.

Вывод оказался довольно «взрывным»: 90% архитектурных решений уже сошлись. Возьмите любую открытую большую модель наугад — будь то Qwen, Llama, DeepSeek или GLM — и они почти идентичны по этим параметрам.

Три предложения преподавателя, подытоживающие последние три года:

2024 год: Все косплеили Llama 2
2025 год: Тема — «как тренировать, чтобы не схлопнуться»
2026 год: ?

Где проявляется архитектурная конвергенция

Курс Тацу разобрал следующие ключевые измерения и обнаружил, что почти все основные модели выбрали одинаковые решения:

1. Варианты Transformer

Практически повсеместно архитектура Decoder-only. Encoder-decoder (семейство T5) полностью маргинализирован в пространстве общих LLM. MoE (Mixture of Experts) перешёл из разряда «опциональных» в «конфигурацию по умолчанию для больших моделей».

2. Механизм внимания

Переход отрасли от Multi-Head Attention к Grouped Query Attention (GQA) произошёл практически синхронно. Преимущества GQA в скорости вывода и потреблении VRAM позволили ему победить без конкуренции.

3. Нормализующие слои

RMSNorm заменил LayerNorm в качестве стандарта, а стабильность архитектуры Pre-Norm при глубоком обучении сделала её практически бесспорной.

4. Функции активации

SwiGLU доминирует. ReLU и GeLU практически исчезли из новых моделей.

5. Позиционное кодирование

RoPE (Rotary Position Embedding) — фактический стандарт для сценариев, требующих длинного контекста. ALiBi по-прежнему занимает своё место в специфических сценариях (таких как потоковый вывод).

Почему конвергенция произошла в 2024-2025 годах

Это не совпадение. За архитектурной конвергенцией стоит наложение трёх сил:

Стоимость вычислений: Обучение модели 70B+ стоит миллионы долларов, практически не оставляя пространства для ошибок. После того как Llama 2 валидировал набор архитектурных решений в диапазоне 7B-70B, у последователей практически не осталось мотивации всё опрокинуть и начать заново.

Прозрачность открытого кода: Открытие Llama серии сделало все архитектурные детали прозрачными. Последующим командам моделей не нужно было «переоткрывать» — можно было ссылаться напрямую.

Теоретическая поддержка: Исследование законов масштабирования (Scaling Laws) значительно созрело, дав сообществу более чёткое понимание того, «какие решения работают на масштабе».

О чём 2026 год?

Если архитектуры сошлись, куда сместилась конкуренция?

Качество данных и стабильность обучения.

Преподаватель намекнул, что ключевые конкурентные измерения 2026 года смещаются в сторону:

Оптимизация соотношения данных: Оптимальные пропорции смешивания кода, математики, многоязычных и инструктивных данных
Стабильность процесса обучения: Как избежать всплесков потерь (loss spike) и взрывов градиентов
Методы пост-обучения: Эффективность и качество методов выравнивания, таких как RLHF, DPO, ORPO

Это также объясняет, почему китайские модели, такие как Qwen и DeepSeek, могут по-прежнему достигать значительных различий в производительности, несмотря на архитектурную конвергенцию — за счёт стратегии данных и мастерства обучения.

Что это значит для практиков

Если вы занимаетесь чем-либо из следующего, эта информация важна:

Выбор модели: Не дайте себя обмануть маркетинговыми разговорами об «уникальной архитектуре». Реальные различия кроются в данных и пост-обучении
Локальное развёртывание: Поскольку архитектуры сходятся, опыт оптимизации одной модели (например, схемы квантизации, фреймворки вывода) можно перенести на другие
Точки входа для исследований: Если пространство архитектурных инноваций сужается, следующий прорыв скорее всего придёт со стороны данных или методологии обучения

Позиция китайских моделей в этом ландшафте конвергенции

Стоит отметить одну деталь: китайские модели (Qwen, DeepSeek, GLM) не только не отстали от тренда архитектурной конвергенции, но и создали дифференциацию по некоторым измерениям:

Постоянные инвестиции Qwen в многоязычные способности и длинный контекст
Агрессивная стратегия DeepSeek в архитектуре MoE и оптимизации стоимости вывода
Преимущества GLM в понимании китайского языка и локализованных знаниях

Архитектурная конвергенция не означает конвергенцию способностей — данные и мастерство обучения являются истинным водоразделом.

Одним словом

Конвергенция архитектуры LLM — это не конец инноваций, а смена конкурентных измерений. Война моделей 2026 года — это борьба за данные, мастерство обучения и качество выравнивания — и это именно те области, в которых китайские модели активно инвестируют.