Галлюцинации Claude Opus 4.6 упали на 15%: Вылет из элитной лиги
by ChaoBro
#Claude
#Opus 4.6
#Галлюцинации
#Бенчмарк
#Надёжность модели
Ключевой вывод
Данные бенчмарков показывают резкое падение точности Claude Opus 4.6 с 83.3% до 68.3% за одну неделю, рейтинг упал с #2 на #10, выбыв из «элитной лиги» (топ-5).
Сравнение данных
Метрика
Прошлая неделя
Эта неделя
Изменение
Точность
83.3%
68.3%
-15.0%
Рейтинг
#2
#10
↓ 8 позиций
Лига
Элитная
Мейнстрим
Понижение
Возможные причины
Обновление методологии бенчмарка — более сложные тестовые вопросы
Дрейф модели — тихое обновление API или снижение качества сэмплирования
Загрязнение датасета — ошибочная информация в тренировочных данных