結論
GENERAL365は2026年4月27日にリリースされた新推理ベンチマーク。K-12知識範囲内で高難度推理問題を解くLLMの能力をテスト。365問すべて人工策划、複雑な制約・ネスト論理・意味的干渉の3タイプをカバー。現最強モデルは10%未満—既存大モデルの「純推理」能力は人間レベルに遠く及ばない。
ベンチマーク設計
| 特徴 | MMLU / GSM8K | AIME / FrontierMath | GENERAL365 |
|---|---|---|---|
| 知識依存 | 大量専門知識 | 数学競技レベル | K-12基礎知識 |
| 出典 | 自動筛选 | 競技真题 | 365問人工策划 |
| テスト目標 | 知識掌握度 | 数学深度推理 | 汎用論理推理 |
3つのテスト次元:
- 複雑な制約:複数の相互制約条件を同時に追跡
- ネスト論理:多層ネスト関係の条件
- 意味的干渉:誤解を招く情報で注意力をテスト
選択ガイド
| 役割 | 活用法 |
|---|---|
| モデルベンダー | 内部評価体系に組み込み、推論能力の向上を追跡 |
| 研究者 | 失敗パターンを分析、推論能力の具体的な短板を特定 |
| 開発者 | 複雑論理が関わる场景(法務・監査)では人間の審査層を設計 |
| 企業購買 | GENERAL365スコアをモデル選定参考—5%未満は高論理密度業務に不適 |