复旦×北大がAHEを提案：Harnessが自ら進化、10ラウンドでCodexを凌駕

人類のエンジニアがHarnessを修正する日はもうすぐ終わるかもしれない。

Harness Engineeringについて話すとき、私たちは通常一つの前提を暗黙に了解している：人類がHarnessを設計し、エージェントがその中で実行する。私たちはルールを書き、制約を設定し、フィードバックループを追加し、エージェントがこの檻の中で働くのを見る。

しかし、复旦大学、北京大学、上海奇績智峰チームが新たに提案した Agentic Harness Engineering (AHE) フレームワークは、この前提をひっくり返した——エージェント自身にトレースを読み、問題を見つけ、Harnessを修正し、次のラウンドで修正が実際に有効かどうかを検証させる。

「人がHarnessを修正」から「エージェントがHarnessを修正」へ

この論文の核心ロジックは非常に直感的だ：エージェントはすでにタスクを実行しているのだから、どこでつまずき、どこで失敗したかを最もよく知っている。数百万トークンの実行トレースを人類が盯着手动で修补する代わりに、なぜエージェント自身にやらせないのか。

AHEのワークフローはクローズドループだ：

Observability：エージェントが完全な実行トレースを読み取る
Diagnosis：どこで失敗したかを分析——ツール呼び出しが間違っていたのか？制約が厳しすぎた/緩すぎたのか？
Modification：Harnessの設定、プロンプト、ワークフローを自動修正
Validation：Terminal-Bench 2で修正後のpass@1が実際に向上したかを検証

結果：10ラウンドでCodex-CLIを超えた

実験データは明快だ：

スタート地点：初期Harnessのエージェント、Terminal-Bench 2 pass@1 69.7%
10ラウンドの自動進化後：pass@1 77.0% に向上
比較：人類が設計した Codex-CLI Harness を超えた

これは何を意味するのか？Harness Engineering自体が「職人技」から「自動化可能なプロセス」へ進化していることを意味する。人類のエンジニアがHarnessの最適化に数週間かける必要があるかもしれないものを、AHEは数回のイテレーションで完了する。

業界意義

この論文の登場は、2026年初頭のHarness Engineeringブームに重要な注釈を加えた：

Harnessはもはや静的ではない：以前はHarnessを比較的固定されたインフラと考えていた——モデルが変わればHarnessも調整する必要がある。AHEはHarnessがタスク分布に自動適応できること、さらには継続的に進化できることを証明した。
モデルが変わらなくてもエージェントは強くなる：AHEの改善は完全にHarness層の自動進化から来ており、モデル自体は変化していない。これは2026年のコンセンサスを再び裏付ける——Harnessがエージェント能力を決定する核心変数だ。
エンジニアリング効率の再びの飛躍：Harnessが自己修正できるようになれば、開発者は評価基準と初期フレームワークを定義するだけで、残りはイテレーションループに任せられる。新しいモデルやツールチェーンへの迅速な適応に巨大な価値がある。

論文情報

タイトル：Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent
機関：复旦大学、北京大学、上海奇績智峰
ベンチマーク：Terminal-Bench 2

この論文はHarness Engineeringが「手動構築」から「自動進化」への重要な転換点になるかもしれない。エージェントシステムを構築しているチームにとって、そのオープンソース実装と今後の進展は注目に値する。

「人がHarnessを修正」から「エージェントがHarnessを修正」へ

結果：10ラウンドでCodex-CLIを超えた

業界意義

論文情報

関連コンテンツ

Gemini CLI v0.40.0 ローカル Gemma 対応：スマートルーティングで簡単タスクを無料に

Qwen3.6 ファミリーが Intelligence Index で首位：27B がトップだが推論コストは Gemma 4 の 21 倍

MiniMax M2.7深層解析：モデルが自らを訓練するエージェント進化路線