簡単な問題には小規模モデル、難しい問題には大規模モデルを使う――この考え方には誰もが同意するでしょう。しかし「簡単」と「難しい」をどう判断するか、ほとんどのシステムが感覚に頼っています。
UCCIはこの課題に正確に狙いを定めています。
UCCIのアプローチ
まず、トークンレベルのマージン不確実性で各クエリの難易度を測定。 出力全体の平均confidenceではなく、各トークン生成時の1位と2位の差を見る。
次に、保序回帰で不確実性を実際の誤差確率にマッピング。 これが鍵となるステップです。
最後に、制約付きでコスト最小化。 目標品質を設定し、それを満たす最も安価な閾値戦略を自動的に見つけます。
実際の結果
75,000件の実際のプロダクションクエリ、H100 GPU上の4Bと12Bモデルでテスト。
- 推論コスト31%削減(95% CI: [27%, 35%])
- micro-F1は0.91を維持
- ECEが0.12から0.03に低減
- エントロピー閾値法、split-conformal routing、FrugalGPTスタイルの学習閾値を同一動作点で上回る
論文:UCCI