Chatbot Arena 2026年4月:Anthropicが上位4枠独占、オープンソースとの差が縮まる

Chatbot Arena 2026年4月:Anthropicが上位4枠独占、オープンソースとの差が縮まる

2026年4月末現在、LMSYS Chatbot Arenaの最新ランキングは明確な構図を示している:Anthropicがテキストとコードの両トラックでリードする一方、オープンソース阵营の追い上げが加速している。

テキストTop 10:Anthropicが4枠を独占

ArenaテキストリーダーボードのTop 10(Eloスコア、高いほど良い):

順位モデルスコアラボ
1claude-opus-4-7-thinking1503 ±8Anthropic
2claude-opus-4-6-thinking1501 ±5Anthropic
3claude-opus-4-61496 ±5Anthropic
4claude-opus-4-71493 ±7Anthropic
5gemini-3.1-pro-preview1493 ±5Google
6muse-spark1489 ±7Meta
7gpt-5.5-high1488 ±10OpenAI
8gemini-3-pro1486 ±4Google
9grok-4.20-beta11481 ±5xAI
10gpt-5.4-high1479 ±6OpenAI

4つの重要な観察ポイント:

Anthropicのthinkingモードが明確な優位性を示す。 claude-opus-4-7-thinkingが1503で1位、thinkingなしの同バージョン(1493)より10ポイント高い。コードリーダーボードではこの差がさらに顕著で、thinkingモードは1571に達する。

OpenAI GPT-5.5が期待を下回る。 gpt-5.5-highが1488で7位、Claude全バリアントとGemini 3.1 Proに後れを取る。±10の誤差範囲はTop 10中で最大、ユーザー評価のばらつきが最も大きいことを示す。

Meta muse-sparkが初めてTop 6入り。 1489でGPT-5.5を上回り、Anthropic/Google以外で最高位のモデルとなった。

Googleの双子は安定だがブレイクスルーなし。 gemini-3.1-pro-preview(1493)とgemini-3-pro(1486)の差が小さく、3.0から3.1 Proへの改善がユーザー側で限定的であることを示唆。

コードリーダーボード:Anthropicの支配力がより強い

順位モデルスコア
1claude-opus-4-7-thinking1571
2claude-opus-4-71565
3claude-opus-4-6-thinking1551
4claude-opus-4-61548
5glm-5.11534
6kimi-k2.61529
7claude-sonnet-4-61525
8muse-spark1510
9gpt-5.5-high (codex-harness)1500
10claude-opus-4-5-thinking-32k1491

GLM-5.1とKimi-K2.6はそれぞれ1534と1529で、コードArenaにおける中国モデルの最高成績を記録している。

オープンソースの進捗

オープンソース1位とクローズドソース1位のスコア差は1年前の50+ポイントから15-20ポイントに縮小。実世界でのユーザビリティにおいて、オープンソースモデルがクローズドソースフラッグシップに近づいている。


主要ソース: