GENERAL365 ベンチマークリリース：汎用推論能力の新基準

結論

GENERAL365は2026年4月27日にリリースされた新推理ベンチマーク。K-12知識範囲内で高難度推理問題を解くLLMの能力をテスト。365問すべて人工策划、複雑な制約・ネスト論理・意味的干渉の3タイプをカバー。現最強モデルは10%未満—既存大モデルの「純推理」能力は人間レベルに遠く及ばない。

ベンチマーク設計

特徴	MMLU / GSM8K	AIME / FrontierMath	GENERAL365
知識依存	大量専門知識	数学競技レベル	K-12基礎知識
出典	自動筛选	競技真题	365問人工策划
テスト目標	知識掌握度	数学深度推理	汎用論理推理

3つのテスト次元：

複雑な制約：複数の相互制約条件を同時に追跡
ネスト論理：多層ネスト関係の条件
意味的干渉：誤解を招く情報で注意力をテスト

選択ガイド

役割	活用法
モデルベンダー	内部評価体系に組み込み、推論能力の向上を追跡
研究者	失敗パターンを分析、推論能力の具体的な短板を特定
開発者	複雑論理が関わる场景（法務・監査）では人間の審査層を設計
企業購買	GENERAL365スコアをモデル選定参考—5%未満は高論理密度業務に不適

結論

ベンチマーク設計

選択ガイド

出典

関連コンテンツ

Kimi K2.6 が Design Arena で首位獲得：月之暗面が 3D デザイン領域ですべての米国モデルを上回る

Qwen 3.6 Max BS Benchmark評価：反ハルシネーション能力が全OpenAIモデルを上回る

Oxford/LLNL連鎖推論ベンチマーク：GPT単体95.7%、連鎖後は9.83%に急落