最先端モデルは長いワークフローの中でドキュメントを静かに破壊する。たまにじゃない。体系的に。
Philippe Laban(Salesforce Research)、Tobias Schnabel、Jennifer NevilleがarXivにDELEGATE-52を発表した——52の専門分野、19のLLMによる大規模ベンチマークだ。結論はあまり芳しくない:Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4クラスのモデルでさえ、長いワークフロー終了時に平均25%のドキュメント内容を破壊する。
「破壊」とは何か
ここでの「破壊」はモデルが文字化けを返すことではない。委任されたタスク(ドキュメントの編集、コードの変更、レポートの更新)を受け取った後、モデルが指示されていないのにエラーを導入したり正しい内容を削除したりすることを指す。
稀だが、致命的。
DELEGATE-52は実際の委任ワークフローをシミュレートする:ドキュメントを与え、一連の編集をさせ、結果を確認する。52の分野はコーディング、結晶学、楽譜など多岐にわたる。
結果は以下の通り:
- 最先端モデル(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4):長いワークフロー終了時に約25%の内容が破壊
- その他のモデル:より高い失敗率。一部のモデルは後期の段階でほとんど使用不能に
- Agenticツール使用は性能を改善しない:ツール呼び出し機能を追加してもDELEGATE-52での成績は向上しなかった
- ドキュメントが大きいほど破壊が深刻:ドキュメント規模とインタラクション長がエラー率と正の相関
- 妨害ファイルが問題を悪化:作業ディレクトリに無関係なファイルを置くとモデルのエラー率が上昇
核心にある問題
論文の説明:現在のLLMは信頼できない代理人だ。 「稀だが深刻なエラー」を導入し、それが長いインタラクションの中で累積する。
これは「より良いモデルに乗り換えれば解決する」類の問題ではない。テストされたモデルはすでに最強のものだ。根本原因はLLMのアーキテクチャ特性にある——それらは確率的モデルであり、決定論的エンジンではない。短い会話ではこの不確実性は許容できる。長いワークフローでは、呼び出しのたびにサイコロを振っていることになる。十分に振ればいつか問題が起きる。
さらに厄介なのは、これらのエラーは静かに発生するということだ。モデルは「3段落目の数式を間違えました」と教えてくれない。ただ変更して、自信満々で返してくるだけだ。
あなたへの影響
ドキュメント編集、コードリファクタリング、レポート更新にLLMを使っている場合:
短いタスクは問題ない。 数行のコード編集や段落の調整——最先端モデルはこれを信頼性高く処理する。
長いワークフローには人間のチェックポイントが必要。 LLMに50ページのドキュメントを途中確認なしで連続編集させれば、望まない変更が必ず含まれる。
妨害ファイルは罠だ。 作業ディレクトリに無関係なファイルを混ぜるとエラー率が上がる。ワークスペースを清潔に保つのはコードスタイルの問題ではなく、安全の問題でもある。
ツール呼び出しは銀の弾丸ではない。 この論文は明確に、ツール呼び出し機能の追加が委任タスクの性能を改善しないことを示している。Agentにファイル読み書きツールを装備すればドキュメント信頼性問題が自動的に解決すると考えないこと。
私の判断
この論文の価値は、大規模データで一つの幻想を打ち破ったことにある:「最先端モデルはドキュメントを任せるのに十分な信頼性がある」。
現実には、正確性を要求する委任タスクに対して、現在のベストプラクティスは依然として「LLMが生成 + 人間がレビュー」だ。LLMが弱いからではない。確率的な性質が、100%の確実性を要求する仕事には不向きだからだ。
DELEGATE-52の意義は、LLMが悪いと伝えることではない。定量化可能なベンチラインを提供したことだ。25%の破壊率は出発点であって終着点ではない。次のモデルリリース時、同じベンチマークで進捗を追跡できる。
それまでは、重要なドキュメントをLLMに任せっきりにしないでほしい。
主な情報源:
- LLMs Corrupt Your Documents When You Delegate, Philippe Laban et al., arXiv:2604.15597
- Hacker News 議論