C
ChaoBro

Галлюцинации Claude Opus 4.6 упали на 15%: Вылет из элитной лиги

Галлюцинации Claude Opus 4.6 упали на 15%: Вылет из элитной лиги

Ключевой вывод

Данные бенчмарков показывают резкое падение точности Claude Opus 4.6 с 83.3% до 68.3% за одну неделю, рейтинг упал с #2 на #10, выбыв из «элитной лиги» (топ-5).

Сравнение данных

МетрикаПрошлая неделяЭта неделяИзменение
Точность83.3%68.3%-15.0%
Рейтинг#2#10↓ 8 позиций
ЛигаЭлитнаяМейнстримПонижение

Возможные причины

  1. Обновление методологии бенчмарка — более сложные тестовые вопросы
  2. Дрейф модели — тихое обновление API или снижение качества сэмплирования
  3. Загрязнение датасета — ошибочная информация в тренировочных данных

Стратегии защиты пользователей

Краткосрочные

  1. Независимая проверка фактов — перекрёстная проверка дат, статистики, нормативов
  2. Переход на Opus 4.7 — точность ~87%, но за paywall Pro
  3. Добавление системных промптов — «Не уверен — скажите “не знаю”»

Долгосрочные

Тип работыРекомендуемая модельПричина
Генерация кодаClaude Code / CodexКод можно исполнить и проверить
Поиск фактовGPT-5.5 + ПоискСильное поисковое усиление
Креативное письмоOpus 4.6 всё ещё подходитНизкий риск галлюцинаций
Юриспруденция/МедицинаКросс-проверка несколькими моделями + человекВысокий риск