もし2024年のLLM革命が「モデルがコードを書けること」について語っていたとすれば、2026年のアジェンティックAI(agentic AI)革命は、コードが逆にモデルを駆動することについて語るものとなる——つまり、コードはもはやエージェントの単なる出力物ではなく、エージェント自身の「オペレーティングシステム」となるのだ。
本論文は、42名の著者(複数の著名な学術機関および産業界の研究者を含む)によって執筆された総説であり、本日、Hugging Face Daily Papersで#1に選出された。そこでは、「コードをエージェント・ハーネスとして活用(Code as Agent Harness)」という統一的な理論フレームワークが提唱されている。
核心命題
論文の中心的な主張は明確である:新興のアジェンティック・システムにおいて、コードはもはや「達成すべき最終出力」という役割を越えて、エージェントの推論の担体、行動の実行装置、環境モデリングのツール、そして実行に基づく検証インフラストラクチャへと進化している。
著者らは、この変化を以下の3つの階層に整理している:
第1階層:ハーネス・インターフェース(Harness Interface)
コードが、いかにしてエージェントを推論・行動・環境モデリングに接続するか。これは単なる「API呼び出し」ではなく、コードがエージェントの知覚-意思決定-実行ループの骨格(skeleton)を担うことを意味する。
第2階層:ハーネス・メカニズム(Harness Mechanisms)
これは、長期にわたる実行プロセスにおけるキーコンポーネントをカバーする:
- プランニング(Planning):コードがタスク分解と実行順序をいかに組織化するか
- メモリ(Memory):コードの状態が永続化された記憶として機能すること
- ツール利用(Tool Use):コードがツールの呼び出しと編成のための「接着剤層(glue layer)」として機能すること
- フィードバック駆動制御(Feedback-driven Control):実行結果に基づく自己適応的最適化
第3階層:多エージェントへの拡張(Scaling to Multi-Agent)
コードが共有アーティファクト(shared code artifacts)となることで、複数エージェント間の調整・レビュー・検証に統一的な意味論的基盤が与えられる。論文では、この方向性における未解決課題——特に、エージェント間の状態整合性(cross-Agent state consistency) および 安全性が極めて重要な操作における人間監視(human oversight for safety-critical operations) ——についても言及している。
応用シナリオの全体像
論文では、コードをエージェント・ハーネスとして活用するさまざまな分野における応用例が整理されている:
- コーディングアシスタント(Claude Code、Cursorなど)
- GUI/OS自動化
- 具現化エージェント(Embodied Agents)
- 科学的発見
- 個別化およびレコメンデーション
- DevOps
- 企業向けワークフロー
未解決の課題
論文は問題点を回避せず、以下のような主要な未解決課題を率直に提示している:
- 評価は最終タスク成功率のみで測ってはならない——ハーネスの途中状態および意思決定品質も評価対象とする必要がある
- 不完全なフィードバック下での検証——環境からのフィードバックが希薄またはノイズを含む場合、ハーネスが「正しい」かどうかをどう判断するか
- リグレッションのないハーネス改善——ハーネスのコードを修正する際に、性能劣化を引き起こさずに改良する方法
- マルチモーダル環境への拡張——現行フレームワークは主にテキスト/コード環境を対象としており、他のモダリティへの適用は今後の課題
一言でまとめると
本論文の価値は、新たな技術を提案することにはなく、むしろ、これまで散在していた「コードがエージェントを駆動する」さまざまな実践を、ひとつの統一的理論フレームワークに集約した点にある。アジェンティックAIシステムを構築中のエンジニアにとって、このロードマップは、単一の論文よりもはるかに実用的かつ示唆に富んだ指針となるだろう。
論文および関連コードはすでにオープンソース化されている。エージェント開発者にとって、これは今年最も精読すべき総説の一つと言えるだろう。
主な出典:
- arXiv:2605.18747 — 「Code as Agent Harness」総説論文