Вывод
Qwen 3.6 Max Preview набирает 94,5 балла в BridgeBench BS Benchmark (тест на антигаллюцинации/обнаружение чепухи), занимая второе место в мире. Этот бенчмарк специально проверяет, могут ли модели идентифицировать и отказываться генерировать ложную информацию при столкновении с ведущими вопросами.
Рейтинг:
- Claude Opus 4.6: 95,0
- Qwen 3.6 Max: 94,5
- Claude Sonnet 4.6: 91,5
- GPT-5.4: 91,5
Qwen 3.6 Max — самая высоко ранжированная модель с открытым исходным кодом и единственная среди моделей с не-закрытым исходным кодом, чья способность к антигаллюцинациям превосходит все модели OpenAI.
Измерения тестирования
Что такое BS Benchmark?
BS Benchmark (Bullshit Benchmark) проверяет ключевую способность: когда пользователи задают вопросы, содержащие ложные предпосылки, дезинформацию или логические ловушки, может ли модель идентифицировать проблему в самом вопросе, а не слепо генерировать правдоподобные, но на самом деле неверные ответы?
Это отличается от традиционных тестов знаний — традиционные тесты спрашивают «что вы знаете», а BS Benchmark спрашивает «знаете ли вы, чего вы не знаете».
Производительность Qwen 3.6 Max
Результат Qwen 3.6 Max в 94,5 балла означает, что в подавляющем большинстве тестовых сценариев он может:
- Идентифицировать ложные предпосылки в вопросах и указывать на них
- Выражать разумные сомнения при неуверенности, а не выдумывать ответы
- Различать «обоснованные предположения» и «безосновательные догадки»
Примечательно, что Qwen 3.6 Max набрал больше, чем GPT-5.4 (91,5) и Claude Sonnet 4.6 (91,5), уступая Claude Opus 4.6 всего 0,5 балла.
Значимость для экосистемы открытого кода
Долгое время способность к антигаллюцинациям считалась «рвом» моделей с закрытым исходным кодом. Производительность Qwen 3.6 Max доказывает, что модели с открытым исходным кодом догнали, а в некоторых аспектах и превзошли альтернативы с закрытым исходным кодом по этому критическому показателю.
Для сценариев, требующих высокой надёжности вывода (здравоохранение, юриспруденция, финансы), Qwen 3.6 Max предоставляет альтернативу с открытым исходным кодом без опасений блокировки у вендора.
Рекомендации по выбору
- Сценарии высокой надёжности: способность Qwen 3.6 Max к антигаллюцинациям приближается к топовым моделям с закрытым кодом, подходит для приложений со строгими требованиями к точности вывода
- Стратегия приоритета открытого кода: если вашей команде нужен самостоятельный хостинг или вы хотите избежать блокировки у вендора, Qwen 3.6 Max — в настоящее время сильнейший выбор с открытым кодом для антигаллюцинаций
- Учёт затрат: развёртывание с открытым кодом позволяет избежать затрат на API за токен, особенно ценно для сценариев с большим объёмом вызовов
- Мультимодельное взаимодействие: используйте Qwen 3.6 Max как слой проверки фактов в сочетании с другими моделями, генерирующими контент