Событие
В конце апреля 2026 года несколько разработчиков опубликовали сравнительные тесты китайских AI-моделей на одних и тех же задачах кодирования через X/Twitter. Участвовавшие модели: GLM-5.1 (Zhipu), Kimi K2.6 (Moonshot AI), DeepSeek V4 Pro (DeepSeek) и Qwen 3.6 Max Preview (Alibaba Tongyi Qianwen).
Это не официальный benchmark-тест, а сравнение в реальных условиях разработки, поэтому результаты более ценны для практического выбора модели.
Методология тестирования
Несколько разработчиков использовали схожие подходы к тестированию:
- Один и тот же промпт для кодирования (обычно проект средней сложности полного стека)
- Без дополнительной инженерии промптов
- Оценочные критерии включали: структуру кода, процесс рассуждения, конечную пригодность
Результаты по моделям
GLM-5.1: Структура кода на уровне разработчика
GLM-5.1 продемонстрировала наиболее приближенную к человеческому разработчику организацию кода в нескольких тестах:
- Чёткая структура файлов и модульное разделение
- Стандартизированный стиль именования функций и комментариев
- Полная логика обработки ошибок
Слова тестировщика: «GLM написала самую структурированную в стиле senior developer организацию кода».
В рейтинге кодинга GLM-5.1 находится на том же уровне, что и Kimi K2.6 (entry tier).
Kimi K2.6: Объясняет решения как учитель
Уникальное преимущество Kimi K2.6 заключается в прозрачности объяснения решений:
- Каждый шаг сопровождается чётким обоснованием
- Подходит для сценариев разработки, требующих понимания логики кода
- Возможности роя агентов дают дополнительное преимущество в сложных проектах
«Kimi объясняет каждое решение как учитель».
Возможности роя агентов и долгосрочного кодирования K2.6 также являются плюсом — он не просто пишет код, но может планировать и выполнять многошаговые задачи.
DeepSeek V4 Pro: Мышление на уровне reasoning-движка
Производительность DeepSeek можно охарактеризовать как структурированное рассуждение:
- Сначала анализ, затем кодирование — пошаговый процесс рассуждения
- Контекстное окно в 1M токенов подходит для сверхдлинных файлов кода
- Надёжна в точных задачах, таких как проверка данных счетов (не фабриковала данные)
«DeepSeek думает пошагово, как reasoning engine».
DeepSeek V4 Pro заняла немного ниже GLM-5.1 и Kimi K2.6 в нескольких сравнениях, но разрыв минимален.
Qwen 3.6: Наиболее эффективный вывод кода
Qwen 3.6 Max Preview характеризуется эффективностью вывода и чистотой кода:
- Сгенерированная структура кода ясная, с минимальной избыточностью
- Самая высокая скорость вывода в некоторых тестах
- Более высокая поддерживаемость кода
«Qwen выдала самую чистую структуру кода из всех, что я тестировал».
В этом сравнении Qwen 3.6 была классифицирована как «ниже entry tier», но эта классификация больше связана с конкретной спецификой тестового промпта, чем с абсолютным разрывом в способностях.
Итог по уровням
На основе перекрёстной проверки несколькими разработчиками:
| Уровень | Модели |
|---|---|
| Entry Tier | GLM-5.1 ≈ Kimi K2.6 > DeepSeek V4 Pro |
| Близко к Entry | Qwen 3.6 Max Preview > MiniMax M2.7 |
Примечание: этот рейтинг основан на субъективной оценке конкретных тестовых задач и не представляет абсолютного порядка во всех сценариях.
Рекомендации по выбору
- Нужна стандартизированная структура кода: выбирайте GLM-5.1
- Нужно понимать логику решений: выбирайте Kimi K2.6
- Нужно сверхдлинное контекстное окно: выбирайте DeepSeek V4 Pro
- Нужен эффективный вывод: выбирайте Qwen 3.6
- Сценарии роя агентов: Kimi K2.6 имеет явное преимущество
Интересная деталь
В тесте проверки данных счетов MiniMax M2.7 и MiMo-V2.5-Pro продемонстрировали проблемы с фабрикацией данных, тогда как DeepSeek V4 Flash, GPT-5.5 и GLM-5.1 выполнили задачу. Это напоминает нам: в сценариях, требующих точности, выбор модели важнее цены.
Справочник по ценам
Для долгосрочного использования Coding Plan Max от Ollama Cloud ($80/месяц) может поддерживать 800 миллионов токенов в месяц для интенсивного использования агентов. По сравнению с этим, официальная оплата по использованию API может быть выше в сценариях интенсивного использования.
Китайские AI-модели в области кодирования быстро сокращают отставание от международных моделей. Для большинства повседневных задач разработки эти модели уже могут предоставить надёжную помощь.