复旦×北大がAHEを提案:Harnessが自ら進化、10ラウンドでCodexを凌駕

复旦×北大がAHEを提案:Harnessが自ら進化、10ラウンドでCodexを凌駕

人類のエンジニアがHarnessを修正する日はもうすぐ終わるかもしれない。

Harness Engineeringについて話すとき、私たちは通常一つの前提を暗黙に了解している:人類がHarnessを設計し、エージェントがその中で実行する。私たちはルールを書き、制約を設定し、フィードバックループを追加し、エージェントがこの檻の中で働くのを見る。

しかし、复旦大学、北京大学、上海奇績智峰チームが新たに提案した Agentic Harness Engineering (AHE) フレームワークは、この前提をひっくり返した——エージェント自身にトレースを読み、問題を見つけ、Harnessを修正し、次のラウンドで修正が実際に有効かどうかを検証させる。

「人がHarnessを修正」から「エージェントがHarnessを修正」へ

この論文の核心ロジックは非常に直感的だ:エージェントはすでにタスクを実行しているのだから、どこでつまずき、どこで失敗したかを最もよく知っている。数百万トークンの実行トレースを人類が盯着手动で修补する代わりに、なぜエージェント自身にやらせないのか。

AHEのワークフローはクローズドループだ:

  1. Observability:エージェントが完全な実行トレースを読み取る
  2. Diagnosis:どこで失敗したかを分析——ツール呼び出しが間違っていたのか?制約が厳しすぎた/緩すぎたのか?
  3. Modification:Harnessの設定、プロンプト、ワークフローを自動修正
  4. Validation:Terminal-Bench 2で修正後のpass@1が実際に向上したかを検証

結果:10ラウンドでCodex-CLIを超えた

実験データは明快だ:

  • スタート地点:初期Harnessのエージェント、Terminal-Bench 2 pass@1 69.7%
  • 10ラウンドの自動進化後:pass@1 77.0% に向上
  • 比較:人類が設計した Codex-CLI Harness を超えた

これは何を意味するのか?Harness Engineering自体が「職人技」から「自動化可能なプロセス」へ進化していることを意味する。人類のエンジニアがHarnessの最適化に数週間かける必要があるかもしれないものを、AHEは数回のイテレーションで完了する。

業界意義

この論文の登場は、2026年初頭のHarness Engineeringブームに重要な注釈を加えた:

  1. Harnessはもはや静的ではない:以前はHarnessを比較的固定されたインフラと考えていた——モデルが変わればHarnessも調整する必要がある。AHEはHarnessがタスク分布に自動適応できること、さらには継続的に進化できることを証明した。
  2. モデルが変わらなくてもエージェントは強くなる:AHEの改善は完全にHarness層の自動進化から来ており、モデル自体は変化していない。これは2026年のコンセンサスを再び裏付ける——Harnessがエージェント能力を決定する核心変数だ。
  3. エンジニアリング効率の再びの飛躍:Harnessが自己修正できるようになれば、開発者は評価基準と初期フレームワークを定義するだけで、残りはイテレーションループに任せられる。新しいモデルやツールチェーンへの迅速な適応に巨大な価値がある。

論文情報

  • タイトル:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent
  • 機関:复旦大学、北京大学、上海奇績智峰
  • ベンチマーク:Terminal-Bench 2

この論文はHarness Engineeringが「手動構築」から「自動進化」への重要な転換点になるかもしれない。エージェントシステムを構築しているチームにとって、そのオープンソース実装と今後の進展は注目に値する。