Дни, когда инженеры-люди настраивали Harness, могут быть сочтены.
Когда мы говорим о Harness Engineering, мы обычно подразумеваем одну premise: люди проектируют Harness, а агент выполняет в нём. Мы пишем правила, устанавливаем ограничения, добавляем петли обратной связи и наблюдаем, как агент работает внутри этой клетки.
Но фреймворк Agentic Harness Engineering (AHE), недавно предложенный Университетом Фудань, Пекинским университетом и Shanghai Qiji Zhifeng, переворачивает эту premise с ног на голову — позволяя агенту самому читать свои трассировки, находить проблемы, модифицировать свой Harness и проверять, действительно ли изменения работают в следующем раунде оценки.
От «люди настраивают Harness» к «агент настраивает Harness»
Основная логика этой статьи интуитивно понятна: раз агент уже выполняет задачи, он лучше всего знает, где он застревает и где ошибается. Вместо того чтобы людям смотреть на миллионы токенов трассировок выполнения и вручную латать, почему бы не позволить агенту сделать это самому?
Рабочий процесс AHE — это замкнутый цикл:
- Observability: Агент читает полную трассировку выполнения
- Diagnosis: Анализирует, что пошло не так — неправильный вызов инструмента? Слишком жёсткие или слишком слабые ограничения?
- Modification: Автоматически модифицирует конфигурацию Harness, промпты или рабочий процесс
- Validation: Проверяет на Terminal-Bench 2, действительно ли pass@1 после модификации улучшился
Результаты: Обгон Codex-CLI за 10 раундов
Экспериментальные данные прямы:
- Стартовая точка: Агент с начальным Harness, pass@1 на Terminal-Bench 2 69,7%
- После 10 раундов автоматической эволюции: pass@1 улучшился до 77,0%
- Сравнение: Превзошёл созданный людьми Harness Codex-CLI
Что это значит? Это значит, что Harness Engineering сам по себе эволюционирует от «ремесла» к «автоматизируемому процессу». То, что человеческим инженерам может занять недели для оптимизации Harness, AHE accomplishes всего за несколько итераций.
Значение для индустрии
Эта статья добавляет важный штрих к тренду Harness Engineering начала 2026 года:
- Harness больше не статичен: Ранее мы считали Harness относительно фиксированной инфраструктурой — модели меняются, Harness нуждается в подстройке. AHE доказывает, что Harness может адаптироваться к распределению задач самостоятельно, даже постоянно эволюционируя.
- Агент становится сильнее без изменений модели: Улучшения AHE полностью происходят от автоматической эволюции на уровне Harness, сама модель не меняется. Это подтверждает консенсус 2026 года — Harness является ключевой переменной, определяющей способность агента.
- Ещё один скачок инженерной эффективности: Когда Harness может модифицировать сам себя, разработчикам нужно только определить критерии оценки и начальный фреймворк, оставляя остальное итерационным циклам. Это имеет огромное значение для быстрой адаптации к новым моделям и цепочкам инструментов.
Информация о статье
- Название: Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent
- Институты: Университет Фудань, Пекинский университет, Shanghai Qiji Zhifeng
- Бенчмарк: Terminal-Bench 2
Эта статья может стать важным поворотным моментом для Harness Engineering, переходя от «ручного создания» к «автоматической эволюции». Для команд, строящих системы агентов, её реализация с открытым исходным кодом и будущий прогресс заслуживают внимания.