Трёхлетний обзор Arena от LMSYS: модели с открытым кодом сокращают отставание от проприетарных

В начале 2023 года проприетарные модели опережали открытые на 250 баллов в Chatbot Arena Text Arena.

К началу 2026 года это число упало до однозначных значений.

LMSYS опубликовала набор данных за три года, охватывающий три Arena (Text, Code, Expert Prompt), отвечая на вопрос: догнали ли модели с открытым кодом проприетарные?

Ответ — в основном да. Но не во всех областях одинаково.

Text Arena: от +250 до однозначных чисел

DeepSeek R1 ненадолго опередил проприетарные модели в начале 2025 года — исторический момент для открытого кода.

Code Arena: сжатие ещё быстрее

Лидерство проприетарных моделей сжалось с +100 до примерно +40 сегодня.

Expert Prompt: +40 всё ещё у проприетарных

Expert Prompt — самая сложная Arena. Проприетарные модели сохраняют лидерство +40.

Кто движет этой тенденцией

DeepSeek R1, Qwen 3.6, Kimi K2.6 — эти модели с открытым кодом/открытыми весами играют главную роль.

Основные источники:

Text Arena: от +250 до однозначных чисел

Code Arena: сжатие ещё быстрее

Expert Prompt: +40 всё ещё у проприетарных

Кто движет этой тенденцией

Похожие материалы

Рейтинг моделей для Vibe Coding: Kimi K2.6 лидирует, GLM-5.1 наступает, китайские модели сильны каждая в своём

Scale AI выпустила SWE Atlas Refactoring Leaderboard: рефакторинг кода становится новым полем битвы для агентов, Claude Code + Opus 4.7 на первом месте

Qwen3.6-27B + RTX 3090: возможности передовых AI-исследований на потребительских GPU становятся реальностью