結論
最新の幻覚ベンチマークデータにより、Claude Opus 4.6の精度が1週間で83.3%から68.3%に急落、ランキングが世界#2から#10に下落、「エリート層」(トップ5)から脱落した。
法務、医療、金融分析、学術研究など事実集約型業務でClaudeに依存するユーザーにとって、即時の注意が必要なシグナルである。
データ比較
| 指標 | 先週 | 今週 | 変化 |
|---|---|---|---|
| 精度 | 83.3% | 68.3% | -15.0% |
| ランキング | #2 | #10 | ↓ 8位 |
| 層 | エリート | メインストリーム | 格下げ |
ユーザー保護戦略
短期対応
-
事実 claims の独立検証
- 日付、統計、規制条項などの重要情報は検索エンジンや専門データベースでクロスチェック
-
Opus 4.7への切り替え
- 利用可能な場合、Opus 4.7(幻覚精度 ~87%)にアップグレード
-
システムプロンプト制約の追加
不確かな事実については「分からない」と明記し、推測しないでください。 具体的な数値や日付を提供する場合は、出典を明記してください。
長期戦略
| 作業タイプ | 推奨モデル | 理由 |
|---|---|---|
| コード生成 | Claude Code / Codex | コードは実行検証可能 |
| 事実検索 | GPT-5.5 + 検索 | 強力な検索拡張 |
| クリエイティブ執筆 | Opus 4.6引き続き利用可能 | 幻覚リスク低 |
| 法務/医療 | 複数モデルクロスチェック + 人間レビュー | 高リスク分野 |