C
ChaoBro

Qwen3.6-27BがAIME25で満点達成:オープンソース数学推論の新たな分水嶺

Qwen3.6-27BがAIME25で満点達成:オープンソース数学推論の新たな分水嶺

何が起きたのか

コミュニティ評価者の @nanowell が X プラットフォームで一組の注目すべきデータを公開しました:

Qwen3.6-27B が AIME25 数学競技ベンチマークで 100% の正確率を達成しました。

AIME(American Invitational Mathematics Examination)はアメリカ数学招待試験で、AIME25 はこの試験に基づいて構築された AI 数学推論ベンチマークです。問題の難易度は通常の高校数学を大幅に超え、組合せ数学、数論、幾何学などの高次推論能力を必要とします。

評価者は同時に次のように指摘しています:

「Qwen3.6 27B は AIME25 で 100% の正確率に達した数少ないオープンモデルの一つです。このモデルは特にこの種のタスク向けにファインチューニングされているようです。平均的に Qwen3.5 よりも大幅に優れています。」

データ比較:Qwen3.6 vs Qwen3.5

次元Qwen3.5 シリーズQwen3.6-27B変化
AIME25~72%100%+28pp
モデル規模32B-72B 複数サイズ27Bより小さいがより強い
数学推論汎用ファインチューニング専門的な強化専門的チューニング
オープンソース可用性一部重み全重みオープンよりオープン

重要なシグナル

  1. 27B規模で満点達成:これは中規模のオープンモデルが特定の分野において数百億パラメータのクローズドソースモデルに匹敵するか、それを上回る可能性があることを意味します。
  2. 専門的なファインチューニングの効果が顕著:アリババは明らかに Qwen3.6 のトレーニングパイプラインに専門的な数学推論強化ステージを追加しました。
  3. 平均性能も前世代を上回る:数学だけでなく、Qwen3.6 は全体的なベンチマークでも Qwen3.5 と比較して明らかな向上を見せています。

技術パスの推測

Qwen3.6-27B の数学推論における突破は、以下の技術方向から来ている可能性があります:

1. GRPO 強化学習チューニング

アリババは以前、Qwen の GRPO(Group Relative Policy Optimization)方向の研究を公開しました。GRPO は推論タスク向けの強化学習アルゴリズムで、従来の RLHF より数学などの多段階推論が必要なシナリオに適しています。

2. 思考トークンの最適化

Qwen チームは思考トークンの最適化に多くの取り組みを行っています。推論プロセス中の「思考」と「出力」の比率を精密に制御することで、回答品質を維持しつつ推論遅延を削減できます。

3. 合成データ蒸留

より大規模なモデル(Qwen3.6-Max など)を使用して高品質な数学推論チェーンを生成し、その後 27B モデルに蒸留します。この「教師-生徒」蒸留戦略は数学推論タスクで特に効果的です。

オープンソースエコシステムへの影響

Qwen3.6-27B の AIME25 満点の意義は、ベンチマークの数字だけにとどまりません:

開発者にとって

  • ローカルデプロイの実現可能性:27B モデルはコンシューマーグレード GPU(RTX 4090 24GB など)で実行可能であり、企業がローカルでトップクラスの数学推論能力を獲得できることを意味します。
  • コスト効率:クローズドソース API を呼び出すのと比較し、27B モデルをローカルで実行することは大規模推論シナリオでコストが低くなります。

業界にとって

  • オープンソースとクローズドソースの格差縮小:伝統的にクローズドソースモデルがリードしていた数学推論分野で、オープンソースモデルが追いつき、場合によっては追い越しています。
  • 専門化トレンド:将来の競争は「全能型」モデルの比較だけでなく、「分野特化型」モデルの競争になります。

中国モデルエコシステムにとって

Qwen3.6 の継続的なイテレーションは、アリババの中国大モデル第一陣での位置を固めました。先の Qwen3.6-Max Preview の SWE-bench でのパフォーマンスと合わせ、アリババはコードから数学までの全方位的なオープンソースモデルマトリックスを構築しています。

勢力図の判断

Qwen3.6-27B の AIME25 満点は3つの明確なシグナルを放出しました:

  1. モデル規模はもはや性能の決定的要因ではない——27B がより大きなモデルを打ち負かすことができ、鍵はトレーニング戦略にあります。
  2. 数学推論がモデル能力の新たな試金石になりつつある——コード能力の次に、数学推論がモデルのグレードを区別する新たな基準になります。
  3. オープンソースモデルの「専門的強化」ルートが奏功している——全てを完璧に追求するのではなく、重要な分野で極致を追求する方が勝者の戦略です。

アクション推奨事項

  1. 数学集約型アプリケーションは Qwen3.6-27B を優先的にテストすべき:教育、研究、金融モデリングなどのシナリオで、このモデルのコストパフォーマンスは極めて高いです。
  2. 今後の Qwen3.6 シリーズの他の規模バージョンに注目:27B がすでに満点を達成しているなら、より大きな 35B とより小さな 4B/7B バージョンを引き続き注目する価値があります。
  3. ローカル推論フレームワークと組み合わせてデプロイ:LM Studio、Ollama などのローカル推論ツールと組み合わせることで、ゼロコストでトップクラスの数学推論能力を獲得できます。
  4. Kimi K2.6 と DeepSeek V4 との比較テスト:同じく国産オープンソースモデルとして、3者の数学推論能力の比較はモデル選定に直接的な参考を提供します。

オープンソース数学推論の新たな分水嶺が到来しました。Qwen3.6-27B が証明しました:中規模 + 精密チューニング = トップクラスの性能。