По состоянию на конец апреля 2026 года последний рейтинг LMSYS Chatbot Arena показывает четкую картину: Anthropic лидирует одновременно в текстовом и кодовом треках, но лагерь open-source ускоряет свое продвижение.
Текстовый Топ-10: Anthropic занимает четыре места
| Ранг | Модель | Балл | Лаборатория |
|---|---|---|---|
| 1 | claude-opus-4-7-thinking | 1503 ±8 | Anthropic |
| 2 | claude-opus-4-6-thinking | 1501 ±5 | Anthropic |
| 3 | claude-opus-4-6 | 1496 ±5 | Anthropic |
| 4 | claude-opus-4-7 | 1493 ±7 | Anthropic |
| 5 | gemini-3.1-pro-preview | 1493 ±5 | |
| 6 | muse-spark | 1489 ±7 | Meta |
| 7 | gpt-5.5-high | 1488 ±10 | OpenAI |
| 8 | gemini-3-pro | 1486 ±4 | |
| 9 | grok-4.20-beta1 | 1481 ±5 | xAI |
| 10 | gpt-5.4-high | 1479 ±6 | OpenAI |
Четыре ключевых наблюдения:
Режим thinking от Anthropic показывает явное преимущество. claude-opus-4-7-thinking лидирует с 1503 баллами, на 10 пунктов выше версии без thinking (1493).
OpenAI GPT-5.5 не оправдывает ожиданий. gpt-5.5-high занимает седьмое место с 1488 баллами, отставая от всех вариантов Claude и Gemini 3.1 Pro.
Meta muse-spark впервые входит в топ-6. С результатом 1489 превосходит GPT-5.5 и становится моделью с наивысшим рейтингом среди не-Anthropic/Google моделей.
Модели Google стабильны, но без прорывов. gemini-3.1-pro-preview (1493) и gemini-3-pro (1486) занимают пятое и восьмое места.
Кодовый рейтинг: доминирование Anthropic ещё сильнее
GLM-5.1 и Kimi-K2.6 с результатами 1534 и 1529 соответственно представляют лучшие результаты китайских моделей в кодовом Arena.
Прогресс open-source
Разрыв между open-source #1 и closed-source #1 сократился с 50+ баллов год назад до 15-20 баллов.
Основные источники: