Baidu ERNIE 5.1 Preview дебютировал в Arena на #13, возглавил категорию права

Baidu ERNIE 5.1 Preview дебютировал в Arena на #13, возглавил категорию права

Ключевая оценка

Baidu идёт совершенно другим путём, чем конкуренты — соревнуясь не в масштабе параметров, а в стоимости вывода. Выпуск ERNIE 5.1 Preview标志着中国大模型进入”后参数量竞赛”时代.

В LMSYS Arena модель дебютировала на #13 с Elo 1476, сжав параметры до примерно одной трети от предыдущей версии (v5.0, 2.4 триллиона параметров), активные параметры сокращены вдвое. Это “похудение” — не снижение производительности, а результат архитектуры MoE и асинхронного обучения с подкреплением.

Что произошло

30 апреля ERNIE 5.1 Preview тихо появился в LMSYS Chatbot Arena. Без пресс-конференций, без масштабного PR — просто появился в рейтинге. Такой подход “quiet launch” редок среди китайских LLM-компаний.

На момент публикации модель набрала 3560 голосов в боях, Elo-рейтинг 1476 ± 10, занимая #13 в мире.

Детали рейтинга Arena

ПоказательЗначение
Мировой рейтинг#13
Elo1476 ± 10
Голосов3,560
Тип моделиЗакрытая / Proprietary
СтатусPreview

Рейтинги по категориям

ERNIE 5.1 Preview ещё более впечатляющ в细分ных категориях:

КатегорияМировой рейтинг
⚖️ Право и госуправление#1
💼 Бизнес и финансы#4
💻 ПО и IT-услуги#7
📐 Математика#9

Первое место в категории права напрямую связано с многолетним накоплением данных Baidu в китайских правовых документах и государственных сценариях.

Технические особенности: почему меньше параметров — выше рейтинг?

ERNIE 5.0 (ноябрь 2025, Baidu World) — мультимодальная модель на 2.4 триллиона параметров. 5.1 Preview достигла значительного “похудения”:

Сжатие параметров

  • Общее количество: сжато до ~1/3 от 5.0
  • Активные параметры: сжато до ~1/2 от 5.0
  • Стоимость обучения: всего ~6% от аналогичных моделей

Ключевые технологии

1. Разделённое полностью асинхронное обучение с подкреплением

Традиционное RLHF требует синхронных циклов выборки-оценки-обновления, что неэффективно. ERNIE 5.1 использует разделённую архитектуру: сбор данных, вычисление вознаграждения и обновление модели работают полностью асинхронно и параллельно, значительно увеличивая пропускную способность обучения.

2. Масштабированное постобучение агентских способностей (Scaled Agentic Post-Training)

5.1 внедряет масштабированное обучение агентским способностям — не просто “отвечать на вопросы”, а “вызывать инструменты, планировать задачи, автономно выполнять”. Это выделяет модель в сценариях, требующих рассуждений и использования инструментов (кодирование, бизнес-анализ).

3. Оптимизация архитектуры MoE

Механизм маршрутизации Mixture of Experts гарантирует активацию только ~15-20% параметров на токен. В сочетании со смешанной точностью INT4/FP8 использование VRAM снижено на ~50%, потеря точности控制在 1.2%以内.

Сравнение с моделями-аналогами

В диапазоне #10-16 LMSYS Arena конкуренты ERNIE 5.1 Preview включают:

МодельПозиционирование
Claude 3.5 SonnetЗакрытая, сильное рассуждение
Qwen-Max / Qwen2.5-72BOpen-source 70B флагман
Mixtral 8x22BПионер MoE-подхода
ERNIE 5.1 PreviewСжатый MoE + китайское преимущество

Уникальное позиционирование ERNIE 5.1: достичь производительности, близкой к флагманам, с меньшими вычислительными ресурсами, создавая дифференцированное лидерство в китайских вертикальных доменах.

Снижение цен API и позиционирование для предприятий

По данным AIBase, цены API ERNIE 5.1 снижены на ~40% по сравнению с v4.0. Preview-версия доступна через консоль Baidu Cloud, полный коммерческий релиз ожидается в Q3 2026.

Анализ 36Kr отмечает: “Ключ ERNIE 5.1 — не масштаб параметров, а стоимость вывода. Для SME и отраслевых сценариев тонкой настройки технология сжатия 5.1 значительно снижает порог приватного развёртывания.”

Отраслевой ландшафт

Первая половина 2026 года ознаменовала новый этап конкуренции китайских LLM:

  • Qwen (Alibaba): Открытый маршрут, Qwen2.5-72B стабильно в топе Arena
  • Kimi (Moonshot AI): K2.6 атакует в программировании, крипто-капитал входит
  • ERNIE (Baidu): От “гонки параметров” к “гонке эффективности”, фокус на предприятия
  • DeepSeek: V4 адаптируется к экосистеме Ascend, национальный маршрут

Тихий запуск ERNIE 5.1 Preview сам по себе сигнал — Baidu больше не нуждается в пресс-конференциях для самодоказательства, позволяя рейтингам Arena говорить за себя.

Рекомендации

  • Корпоративные пользователи: Следите за стоимостью приватного развёртывания после снижения цен 5.1, особенно в правовых и финансовых сценариях
  • Разработчики: Preview доступен на LMSYS — сравните с Qwen-Max и Kimi K2.6 в реальных задачах
  • Наблюдатели отрасли: В Q3 при полном релизе обратите внимание на то, сохраняет ли технология сжатия конкурентоспособность на дополнительных бенчмарках