Claude Opus 4.6の幻覚率が15%急落：エリート層から脱落

2026年5月1日 by ChaoBro

#Claude #Opus 4.6 #幻覚 #ベンチマーク #モデル信頼性

Claude Opus 4.6の幻覚率が15%急落：エリート層から脱落

結論

最新の幻覚ベンチマークデータにより、Claude Opus 4.6の精度が1週間で83.3%から68.3%に急落、ランキングが世界#2から#10に下落、「エリート層」（トップ5）から脱落した。

法務、医療、金融分析、学術研究など事実集約型業務でClaudeに依存するユーザーにとって、即時の注意が必要なシグナルである。

データ比較

指標	先週	今週	変化
精度	83.3%	68.3%	-15.0%
ランキング	#2	#10	↓ 8位
層	エリート	メインストリーム	格下げ

ユーザー保護戦略

短期対応

事実 claims の独立検証
- 日付、統計、規制条項などの重要情報は検索エンジンや専門データベースでクロスチェック
Opus 4.7への切り替え
- 利用可能な場合、Opus 4.7（幻覚精度 ~87%）にアップグレード

システムプロンプト制約の追加

不確かな事実については「分からない」と明記し、推測しないでください。
具体的な数値や日付を提供する場合は、出典を明記してください。

長期戦略

作業タイプ	推奨モデル	理由
コード生成	Claude Code / Codex	コードは実行検証可能
事実検索	GPT-5.5 + 検索	強力な検索拡張
クリエイティブ執筆	Opus 4.6引き続き利用可能	幻覚リスク低
法務/医療	複数モデルクロスチェック + 人間レビュー	高リスク分野