Chatbot Arena апрель 2026: Anthropic занимает первые четыре места, разрыв с open-source сокращается

По состоянию на конец апреля 2026 года последний рейтинг LMSYS Chatbot Arena показывает четкую картину: Anthropic лидирует одновременно в текстовом и кодовом треках, но лагерь open-source ускоряет свое продвижение.

Текстовый Топ-10: Anthropic занимает четыре места

Ранг	Модель	Балл	Лаборатория
1	claude-opus-4-7-thinking	1503 ±8	Anthropic
2	claude-opus-4-6-thinking	1501 ±5	Anthropic
3	claude-opus-4-6	1496 ±5	Anthropic
4	claude-opus-4-7	1493 ±7	Anthropic
5	gemini-3.1-pro-preview	1493 ±5	Google
6	muse-spark	1489 ±7	Meta
7	gpt-5.5-high	1488 ±10	OpenAI
8	gemini-3-pro	1486 ±4	Google
9	grok-4.20-beta1	1481 ±5	xAI
10	gpt-5.4-high	1479 ±6	OpenAI

Четыре ключевых наблюдения:

Режим thinking от Anthropic показывает явное преимущество. claude-opus-4-7-thinking лидирует с 1503 баллами, на 10 пунктов выше версии без thinking (1493).

OpenAI GPT-5.5 не оправдывает ожиданий. gpt-5.5-high занимает седьмое место с 1488 баллами, отставая от всех вариантов Claude и Gemini 3.1 Pro.

Meta muse-spark впервые входит в топ-6. С результатом 1489 превосходит GPT-5.5 и становится моделью с наивысшим рейтингом среди не-Anthropic/Google моделей.

Модели Google стабильны, но без прорывов. gemini-3.1-pro-preview (1493) и gemini-3-pro (1486) занимают пятое и восьмое места.

Кодовый рейтинг: доминирование Anthropic ещё сильнее

GLM-5.1 и Kimi-K2.6 с результатами 1534 и 1529 соответственно представляют лучшие результаты китайских моделей в кодовом Arena.

Прогресс open-source

Разрыв между open-source #1 и closed-source #1 сократился с 50+ баллов год назад до 15-20 баллов.

Основные источники:

Текстовый Топ-10: Anthropic занимает четыре места

Кодовый рейтинг: доминирование Anthropic ещё сильнее

Прогресс open-source

Похожие материалы

Kimi K2.6 возглавляет Design Arena: Moonshot AI превосходит все американские модели в 3D-дизайне

Обзор Qwen 3.6 Max BS Benchmark: способность к антигаллюцинациям превосходит все модели OpenAI

Бенчмарк цепочечного рассуждения Oxford/LLNL: GPT 95,7% по отдельности, коллапс до 9,83% в цепочке