Галлюцинации Claude Opus 4.6 упали на 15%: Вылет из элитной лиги

1 мая 2026 г. by ChaoBro

#Claude #Opus 4.6 #Галлюцинации #Бенчмарк #Надёжность модели

Галлюцинации Claude Opus 4.6 упали на 15%: Вылет из элитной лиги

Ключевой вывод

Данные бенчмарков показывают резкое падение точности Claude Opus 4.6 с 83.3% до 68.3% за одну неделю, рейтинг упал с #2 на #10, выбыв из «элитной лиги» (топ-5).

Сравнение данных

Метрика	Прошлая неделя	Эта неделя	Изменение
Точность	83.3%	68.3%	-15.0%
Рейтинг	#2	#10	↓ 8 позиций
Лига	Элитная	Мейнстрим	Понижение

Возможные причины

Обновление методологии бенчмарка — более сложные тестовые вопросы
Дрейф модели — тихое обновление API или снижение качества сэмплирования
Загрязнение датасета — ошибочная информация в тренировочных данных

Стратегии защиты пользователей

Краткосрочные

Независимая проверка фактов — перекрёстная проверка дат, статистики, нормативов
Переход на Opus 4.7 — точность ~87%, но за paywall Pro
Добавление системных промптов — «Не уверен — скажите “не знаю”»

Долгосрочные

Тип работы	Рекомендуемая модель	Причина
Генерация кода	Claude Code / Codex	Код можно исполнить и проверить
Поиск фактов	GPT-5.5 + Поиск	Сильное поисковое усиление
Креативное письмо	Opus 4.6 всё ещё подходит	Низкий риск галлюцинаций
Юриспруденция/Медицина	Кросс-проверка несколькими моделями + человек	Высокий риск