Qwen 3.6 Max BS Benchmark評価：反ハルシネーション能力が全OpenAIモデルを上回る

結論

Qwen 3.6 Max PreviewはBridgeBench BS Benchmark（反ハルシネーション/ナンセンス検出テスト）で94.5点を獲得し、世界ランク2位となった。このベンチマークは、誘導的な質問に直面した際にモデルが虚偽情報を識別して生成を拒否できるかどうかを特にテストする。

ランキング：

Qwen 3.6 Maxはランク最高のオープンソースモデルであり、非クローズドソースオプションの中で反ハルシネーション能力が全OpenAIモデルを上回る唯一のモデルである。

BS Benchmark（Bullshit Benchmark）は核心的能力をテストする：ユーザーが誤った前提、虚偽情報、または論理的トラップを含む質問をしたとき、モデルは問題自体を識別できるか、それとももっともらしいが実際に間違った答えを盲目的に生成するか。

これは伝統的な知識テストとは異なる——伝統的なテストは「何を知っているか」を問うが、BS Benchmarkは「何が分からないかを知っているか」を問う。

Qwen 3.6 Maxの94.5点は、テストシナリオの绝大多数において以下のことができることを意味する：

注目に値するのは、Qwen 3.6 MaxはGPT-5.4（91.5）とClaude Sonnet 4.6（91.5）を上回り、Claude Opus 4.6にわずか0.5点差で迫っていることである。

長年、反ハルシネーション能力はクローズドソースモデルの「護城河」と考えられてきた。Qwen 3.6 Maxの性能は、オープンソースモデルがこの重要な指標においてクローズドソース案に追いつき、一部の面では上回ったことを証明している。

高信頼性の出力が必要なシナリオ（医療、法律、金融）において、Qwen 3.6 Maxはベンダーロックインの心配がないオープンソースの代替案を提供する。

高信頼性シナリオ：Qwen 3.6 Maxの反ハルシネーション能力はトップクラスのクローズドソースモデルに迫っており、出力精度に厳しい要求があるアプリケーションに適している
オープンソース優先戦略：セルフホスティングが必要이거나ベンダーロックインを避けたい場合、Qwen 3.6 Maxは現在反ハルシネーション能力が最も強いオープンソースの選択肢
コスト考量：オープンソースデプロイはトークン単位のAPIコストを回避でき、特に高呼び出し量シナリオで価値が高い
マルチモデルコラボレーション：Qwen 3.6 Maxをファクトチェック層として使用し、他のコンテンツ生成モデルと組み合わせて使用する