LLMルーティングはまだ勘に頼っている？不確実性キャリブレーションで推論コストを31%削減

簡単な問題には小規模モデル、難しい問題には大規模モデルを使う――この考え方には誰もが同意するでしょう。しかし「簡単」と「難しい」をどう判断するか、ほとんどのシステムが感覚に頼っています。

UCCIはこの課題に正確に狙いを定めています。

UCCIのアプローチ

まず、トークンレベルのマージン不確実性で各クエリの難易度を測定。 出力全体の平均confidenceではなく、各トークン生成時の1位と2位の差を見る。

次に、保序回帰で不確実性を実際の誤差確率にマッピング。 これが鍵となるステップです。

最後に、制約付きでコスト最小化。 目標品質を設定し、それを満たす最も安価な閾値戦略を自動的に見つけます。

75,000件の実際のプロダクションクエリ、H100 GPU上の4Bと12Bモデルでテスト。

論文：UCCI