結論ファースト
コミュニティ開発者がTGOグループで発表した非公式コーディングモデル実感評価は、ベンチマークと完全に一致しないランキングを示しました:
| 梯队 | モデル | 定位 |
|---|---|---|
| 第一梯队 | GLM-5.1 ≈ Kimi K2.6 | entryライン通過、日常開発に対応可能 |
| 準第一梯队 | DeepSeek V4-Pro | entryラインに接近、特定シーンで優位 |
| 第二梯队 | Qwen 3.6-Max-Preview | entryライン未通過、だがコストパフォーマンス突出 |
| 第三梯队 | Mimo V2.5-Pro > Qwen 3.6-Plus > HY-3 > Grok 4.20 | 補助コーディングに使用可能 |
このランキングの核心价值:実際のプロジェクトでの日常使用体験から来ており、標準化されたベンチマークスコアではありません。
評価方法論:「実感」とは?
「実感評価」とSWE-benchやHumanEvalなどの標準化テストの本質的な違い:
- ベンチマーク:固定データセットでスコアリング、既知の問題でのモデル表現をテスト
- 実感:開発者が実際のプロジェクトでモデルとインタラクションする主観的体験
評価者は特に「entry梯队」の概念を区別しました——開発者が繰り返し修正することなく、中程度の複雑さのモジュール開発を独立完成できるか。これは「補助ツール」から「協力者」への分水嶺です。
第一梯队:GLM-5.1とKimi K2.6
GLM-5.1:アーキテクチャ理解力が強い
GLM-5.1が評価で最も優れているのはコードアーキテクチャの理解です。
Kimi K2.6:デバッグ能力が突出
Kimi K2.6の優位性はデバッグシーンにあります。
アクション提案
| 使用シーン | 推奨モデル | 理由 |
|---|---|---|
| 日常開発主力 | GLM-5.1またはKimi K2.6 | entryライン通過、モジュール独立完成可能 |
| デバッグ | Kimi K2.6 | 逆方向推論能力が強い |
| コスト制御 | DeepSeek V4-Pro | 75%割引 + 十分な表現 |
| 補助コーディング | Qwen 3.6-Plus | 低コストの「コパイロット」 |
| モバイル統合 | Mimo V2.5-Pro | エッジデプロイに優しい |
実感評価の意義は絶対的なランキングを提供することではなく、ベンチマークを超えた実際の体験も同様に重要であることを思い出させることにあります。