C
ChaoBro

Трёхлетний обзор Arena от LMSYS: модели с открытым кодом сокращают отставание от проприетарных

Трёхлетний обзор Arena от LMSYS: модели с открытым кодом сокращают отставание от проприетарных

В начале 2023 года проприетарные модели опережали открытые на 250 баллов в Chatbot Arena Text Arena.

К началу 2026 года это число упало до однозначных значений.

LMSYS опубликовала набор данных за три года, охватывающий три Arena (Text, Code, Expert Prompt), отвечая на вопрос: догнали ли модели с открытым кодом проприетарные?

Ответ — в основном да. Но не во всех областях одинаково.

Text Arena: от +250 до однозначных чисел

DeepSeek R1 ненадолго опередил проприетарные модели в начале 2025 года — исторический момент для открытого кода.

Code Arena: сжатие ещё быстрее

Лидерство проприетарных моделей сжалось с +100 до примерно +40 сегодня.

Expert Prompt: +40 всё ещё у проприетарных

Expert Prompt — самая сложная Arena. Проприетарные модели сохраняют лидерство +40.

Кто движет этой тенденцией

DeepSeek R1, Qwen 3.6, Kimi K2.6 — эти модели с открытым кодом/открытыми весами играют главную роль.


Основные источники: