Обзор Qwen 3.6 Max BS Benchmark: способность к антигаллюцинациям превосходит все модели OpenAI

Вывод

Qwen 3.6 Max Preview набирает 94,5 балла в BridgeBench BS Benchmark (тест на антигаллюцинации/обнаружение чепухи), занимая второе место в мире. Этот бенчмарк специально проверяет, могут ли модели идентифицировать и отказываться генерировать ложную информацию при столкновении с ведущими вопросами.

Рейтинг:

Claude Opus 4.6: 95,0
Qwen 3.6 Max: 94,5
Claude Sonnet 4.6: 91,5
GPT-5.4: 91,5

Qwen 3.6 Max — самая высоко ранжированная модель с открытым исходным кодом и единственная среди моделей с не-закрытым исходным кодом, чья способность к антигаллюцинациям превосходит все модели OpenAI.

Измерения тестирования

Что такое BS Benchmark?

BS Benchmark (Bullshit Benchmark) проверяет ключевую способность: когда пользователи задают вопросы, содержащие ложные предпосылки, дезинформацию или логические ловушки, может ли модель идентифицировать проблему в самом вопросе, а не слепо генерировать правдоподобные, но на самом деле неверные ответы?

Это отличается от традиционных тестов знаний — традиционные тесты спрашивают «что вы знаете», а BS Benchmark спрашивает «знаете ли вы, чего вы не знаете».

Производительность Qwen 3.6 Max

Результат Qwen 3.6 Max в 94,5 балла означает, что в подавляющем большинстве тестовых сценариев он может:

Идентифицировать ложные предпосылки в вопросах и указывать на них
Выражать разумные сомнения при неуверенности, а не выдумывать ответы
Различать «обоснованные предположения» и «безосновательные догадки»

Примечательно, что Qwen 3.6 Max набрал больше, чем GPT-5.4 (91,5) и Claude Sonnet 4.6 (91,5), уступая Claude Opus 4.6 всего 0,5 балла.

Значимость для экосистемы открытого кода

Долгое время способность к антигаллюцинациям считалась «рвом» моделей с закрытым исходным кодом. Производительность Qwen 3.6 Max доказывает, что модели с открытым исходным кодом догнали, а в некоторых аспектах и превзошли альтернативы с закрытым исходным кодом по этому критическому показателю.

Для сценариев, требующих высокой надёжности вывода (здравоохранение, юриспруденция, финансы), Qwen 3.6 Max предоставляет альтернативу с открытым исходным кодом без опасений блокировки у вендора.

Обзор Qwen 3.6 Max BS Benchmark: способность к антигаллюцинациям превосходит все модели OpenAI

Вывод

Измерения тестирования

Что такое BS Benchmark?

Производительность Qwen 3.6 Max

Значимость для экосистемы открытого кода

Рекомендации по выбору

Основные источники

Вывод

Измерения тестирования

Что такое BS Benchmark?

Производительность Qwen 3.6 Max

Значимость для экосистемы открытого кода

Рекомендации по выбору

Основные источники

Похожие материалы

Kimi K2.6 возглавляет Design Arena: Moonshot AI превосходит все американские модели в 3D-дизайне

Бенчмарк цепочечного рассуждения Oxford/LLNL: GPT 95,7% по отдельности, коллапс до 9,83% в цепочке

Claude BioMysteryBench: может ли ИИ решать биологические задачи, которые ставят в тупик экспертов?