Cursor Agent Harnessメソドロジー:モデル不変、アーキテクチャのみでTerminal-Benchが52.8%から66.5%に急上昇

Cursor Agent Harnessメソドロジー:モデル不変、アーキテクチャのみでTerminal-Benchが52.8%から66.5%に急上昇

結論先行

Cursorチームはシンプルでありながら深遠な実験を行った:

同じモデル(GPT-5.2-Codex)、Agent Harnessのみを変更 — Terminal-Bench 2.0スコアが52.8%から66.5%に急上昇、順位がTop 30圏外からTop 5に。

これは重要な判断を検証している:エージェントシナリオにおいて、アーキテクチャ(Harness)の重要性はモデル自体に匹敵する。

公式:Agent = Model + Harness

これがCursorチームが提唱するコア公式:

  • Model:言語モデル。理解と生成能力を提供
  • Harness:エージェントフレームワーク層。タスク分解、ツール編成、コンテキスト管理、エラー回復を担当

モデルは必要だが十分ではない。Harnessこそが言語モデルを有用なエージェントに変えるものである。

Harness最適化の4つのコア次元

1. コンテキスト管理戦略

戦略最適化前最適化後
コンテキストウィンドウ利用線形充填、頻繁にオーバーフロー階層管理、重要情報優先
履歴保持すべての会話記録を保持知的圧縮、決定ノードを保存
ファイルコンテキスト全ファイル読み込みオンデマンド読み込み+要約キャッシュ

2. タスク分解と計画

  • 最適化前:モデルに直接複雑なタスクを実行させる、失敗率が高い
  • 最適化後:モデルがまず実行計画を作成 → ステップバイステップで実行 → 各ステップを検証 → 失敗時は自動ロールバック・リトライ

3. ツール編成

  • シリアル vs パラレル:並列実行可能なステップを特定し、総実行時間を短縮
  • ツール選択:固定ツールチェーンではなく、最も適切なツールを動的に選択
  • 結果検証:各ツール呼び出し後に出力品質を検証。不合格ならパラメータ調整してリトライ

4. エラー回復メカニズム

  • 最適化前:エラーに遭遇すると即座に停止
  • 最適化後:階層型エラー処理 → 自動診断 → 修復試行 → リトライ閾値超過後にユーザーへ報告

なぜこれが重要なのか

業界への影響

AIコミュニティの注意はモデル能力に過度に集中し、Harness層の最適化空間を軽視している。Cursorの実験が証明するのは:

  1. Harness最適化は10〜15%の追加性能を引き出せる(52.8% → 66.5%)
  2. コストはモデルアップグレードよりはるかに低い:より高価なAPI呼び出しは不要
  3. 移植性:Harness最適化戦略は異なるモデルに適用可能

開発者への示唆

  • モデル切り替えだけを見つめない:モデルが良くないと文句を言う前に、Agent Harnessが最適化されているか確認
  • Harnessは累積的な競争優位:モデルは急速にイテレーションするが、良いHarness設計は長期的に恩恵をもたらす
  • オープンソースHarnessプロジェクトに注目:OpenClawやHermesなどのフレームワークのアーキテクチャ設計理念は価値がある

アクション提言

シナリオ提言
既存のエージェントアプリHarness層のコンテキスト管理、エラー回復、ツール編成ロジックを監査
新規エージェントプロジェクトまずHarnessアーキテクチャを設計、その後モデルを選択
コスト敏感シナリオHarness最適化は高価なモデルへのアップグレードよりROIが高い
モデルが既に最適Harnessが最適化できる唯一の方向

まとめ

「モデルはエンジン、Harnessはトランスミッション。」良いエンジンに悪いトランスミッションでは良いパフォーマンスは出ない。Cursorの実験がデータで証明したのは、エージェント競争においてアーキテクチャ最適化の重要性が深刻に過小評価されているということだ。