C
ChaoBro

LLMルーティングはまだ勘に頼っている?不確実性キャリブレーションで推論コストを31%削減

LLMルーティングはまだ勘に頼っている?不確実性キャリブレーションで推論コストを31%削減

簡単な問題には小規模モデル、難しい問題には大規模モデルを使う――この考え方には誰もが同意するでしょう。しかし「簡単」と「難しい」をどう判断するか、ほとんどのシステムが感覚に頼っています。

UCCIはこの課題に正確に狙いを定めています。

UCCIのアプローチ

まず、トークンレベルのマージン不確実性で各クエリの難易度を測定。 出力全体の平均confidenceではなく、各トークン生成時の1位と2位の差を見る。

次に、保序回帰で不確実性を実際の誤差確率にマッピング。 これが鍵となるステップです。

最後に、制約付きでコスト最小化。 目標品質を設定し、それを満たす最も安価な閾値戦略を自動的に見つけます。

実際の結果

75,000件の実際のプロダクションクエリ、H100 GPU上の4Bと12Bモデルでテスト。

  • 推論コスト31%削減(95% CI: [27%, 35%])
  • micro-F1は0.91を維持
  • ECEが0.12から0.03に低減
  • エントロピー閾値法、split-conformal routing、FrugalGPTスタイルの学習閾値を同一動作点で上回る

論文:UCCI