結論
Qwen 3.6 Max PreviewはBridgeBench BS Benchmark(反ハルシネーション/ナンセンス検出テスト)で94.5点を獲得し、世界ランク2位となった。このベンチマークは、誘導的な質問に直面した際にモデルが虚偽情報を識別して生成を拒否できるかどうかを特にテストする。
ランキング:
- Claude Opus 4.6:95.0
- Qwen 3.6 Max:94.5
- Claude Sonnet 4.6:91.5
- GPT-5.4:91.5
Qwen 3.6 Maxはランク最高のオープンソースモデルであり、非クローズドソースオプションの中で反ハルシネーション能力が全OpenAIモデルを上回る唯一のモデルである。
テスト次元
BS Benchmarkとは何か
BS Benchmark(Bullshit Benchmark)は核心的能力をテストする:ユーザーが誤った前提、虚偽情報、または論理的トラップを含む質問をしたとき、モデルは問題自体を識別できるか、それとももっともらしいが実際に間違った答えを盲目的に生成するか。
これは伝統的な知識テストとは異なる——伝統的なテストは「何を知っているか」を問うが、BS Benchmarkは「何が分からないかを知っているか」を問う。
Qwen 3.6 Maxの性能
Qwen 3.6 Maxの94.5点は、テストシナリオの绝大多数において以下のことができることを意味する:
- 質問の中の誤った前提を識別して指摘する
- 不確実な時に合理的な疑いを表明し、答えを捏造しない
- 「根拠のある推測」と「根拠のない推測」を区別する
注目に値するのは、Qwen 3.6 MaxはGPT-5.4(91.5)とClaude Sonnet 4.6(91.5)を上回り、Claude Opus 4.6にわずか0.5点差で迫っていることである。
オープンソースエコシステムへの意義
長年、反ハルシネーション能力はクローズドソースモデルの「護城河」と考えられてきた。Qwen 3.6 Maxの性能は、オープンソースモデルがこの重要な指標においてクローズドソース案に追いつき、一部の面では上回ったことを証明している。
高信頼性の出力が必要なシナリオ(医療、法律、金融)において、Qwen 3.6 Maxはベンダーロックインの心配がないオープンソースの代替案を提供する。
選定アドバイス
- 高信頼性シナリオ:Qwen 3.6 Maxの反ハルシネーション能力はトップクラスのクローズドソースモデルに迫っており、出力精度に厳しい要求があるアプリケーションに適している
- オープンソース優先戦略:セルフホスティングが必要이거나ベンダーロックインを避けたい場合、Qwen 3.6 Maxは現在反ハルシネーション能力が最も強いオープンソースの選択肢
- コスト考量:オープンソースデプロイはトークン単位のAPIコストを回避でき、特に高呼び出し量シナリオで価値が高い
- マルチモデルコラボレーション:Qwen 3.6 Maxをファクトチェック層として使用し、他のコンテンツ生成モデルと組み合わせて使用する