C
ChaoBro

Qwen3.6-27B набирает идеальный балл на AIME25: новый водораздел для open-source математического рассуждения

Qwen3.6-27B набирает идеальный балл на AIME25: новый водораздел для open-source математического рассуждения

Что произошло

Оценщик сообщества @nanowell опубликовал впечатляющий набор данных в X:

Qwen3.6-27B достиг 100% точности на бенчмарке математической олимпиады AIME25.

AIME (American Invitational Mathematics Examination) — это американский математический пригласительный экзамен. AIME25 — это бенчмарк AI математического рассуждения, основанный на этом экзамене, с задачами, значительно выходящими за рамки стандартной школьной математики, включающими комбинаторику, теорию чисел, геометрию и другие продвинутые навыки рассуждения.

Оценщик также отметил:

«Qwen3.6 27B — одна из немногих open-source моделей, способных достичь 100% точности на AIME25. Модель, по-видимому, была специально донастроена для этого типа задач. В среднем она значительно лучше Qwen3.5.»

Сравнение данных: Qwen3.6 vs Qwen3.5

ИзмерениеСерия Qwen3.5Qwen3.6-27BИзменение
AIME25~72%100%+28pp
Размер модели32B-72B многоуровневая27BМеньше, но сильнее
Математическое рассуждениеОбщая донастройкаЦелевое усилениеСпециализированная настройка
Доступность open sourceЧастичные весаВсе веса открытыБолее открытая

Ключевые сигналы

  1. Размер 27B достигает идеального балла: Это означает, что open-source модели среднего масштаба могут соответствовать или даже превосходить закрытые модели с сотнями миллиардов параметров в определённых областях.
  2. Целевая донастройка высокоэффективна: Alibaba явно добавила специализированный этап усиления математического рассуждения в тренировочный пайплайн Qwen3.6.
  3. Средняя производительность также превосходит предшественника: Не только математика — Qwen3.6 показывает явное улучшение по всем бенчмаркам по сравнению с Qwen3.5.

Техническая спецификация

Прорыв Qwen3.6-27B в математическом рассуждении, вероятно, обусловлен несколькими техническими направлениями:

1. GRPO reinforcement learning

Alibaba ранее опубликовала исследование по направлению GRPO (Group Relative Policy Optimization) для Qwen. GRPO — это алгоритм reinforcement learning, специально разработанный для задач рассуждения, лучше подходящий для многошаговых сценариев рассуждения, таких как математика, чем традиционный RLHF.

2. Оптимизация think-токенов

Команда Qwen проделала значительную работу по оптимизации think-токенов. Тонкий контроль соотношения «мышления» и «вывода» во время рассуждения позволяет модели поддерживать качество ответов при снижении задержки рассуждения.

3. Дистилляция синтетических данных

Использование моделей большего масштаба (таких как Qwen3.6-Max) для генерации высококачественных цепочек математического рассуждения с последующей дистилляцией в 27B модель. Стратегия дистилляции «учитель-ученик» особенно эффективна для задач математического рассуждения.

Влияние на open-source экосистему

Результат идеального балла Qwen3.6-27B на AIME25 несёт значение, выходящее за рамки числа бенчмарка:

Для разработчиков

  • Возможность локального развёртывания: Модели 27B могут работать на GPU потребительского класса (например, RTX 4090 24GB), что означает, что предприятия могут получить передовые способности математического рассуждения локально.
  • Эффективность затрат: По сравнению с вызовом закрытых API, запуск 27B модели локально дешевле для крупномасштабных сценариев вывода.

Для индустрии

  • Сокращение разрыва между open и closed source: В области математического рассуждения, традиционно лидируемой закрытыми моделями, open-source модели догнали или даже превзошли.
  • Тренд специализации: Будущая конкуренция — это не только сравнение «универсальных» моделей, но и соревнование «специализированных по области» моделей.

Для китайской экосистемы моделей

Продолжающаяся итерация Qwen3.6 закрепляет позицию Alibaba в первом эшелоне китайских больших моделей. В сочетании с производительностью Qwen3.6-Max Preview на SWE-bench, Alibaba строит всестороннюю матрицу open-source моделей от кода до математики.

Оценка ландшафта

Результат идеального балла Qwen3.6-27B на AIME25 посылает три ясных сигнала:

  1. Размер модели больше не является определяющим фактором производительности — 27B может победить модели большего размера; ключ — в стратегии обучения.
  2. Математическое рассуждение становится новым критерием способности моделей — после способности к коду, математическое рассуждение становится новым стандартом для различения уровней моделей.
  3. Маршрут «целевого усиления» open-source моделей работает — вместо стремления к всеохватности, достижение превосходства в ключевых областях является выигрышной стратегией.

Рекомендации к действию

  1. Математико-интенсивным приложениям следует приоритетно тестировать Qwen3.6-27B: В образовании, исследованиях, финансовом моделировании и т.д. эта модель предлагает отличное соотношение цены и качества.
  2. Следите за другими вариантами размера серии Qwen3.6: Если 27B уже достиг идеального балла, то большие версии 35B и меньшие 4B/7B заслуживают постоянного внимания.
  3. Развёртывание с локальными фреймворками вывода: В сочетании с LM Studio, Ollama и другими локальными инструментами вывода можно получить передовые способности математического рассуждения по нулевой стоимости.
  4. Сравнительное тестирование с Kimi K2.6 и DeepSeek V4: Как отечественные open-source модели, сравнение способностей математического рассуждения этих трёх моделей предоставит прямую справку для выбора модели.

Новый водораздел для open-source математического рассуждения наступил. Qwen3.6-27B доказал: средний масштаб + точная настройка = производительность высшего уровня.