Фudan × PKU предлагают AHE: Пусть Harness эволюционирует сам, обгоняя Codex за 10 раундов

Фudan × PKU предлагают AHE: Пусть Harness эволюционирует сам, обгоняя Codex за 10 раундов

Дни, когда инженеры-люди настраивали Harness, могут быть сочтены.

Когда мы говорим о Harness Engineering, мы обычно подразумеваем одну premise: люди проектируют Harness, а агент выполняет в нём. Мы пишем правила, устанавливаем ограничения, добавляем петли обратной связи и наблюдаем, как агент работает внутри этой клетки.

Но фреймворк Agentic Harness Engineering (AHE), недавно предложенный Университетом Фудань, Пекинским университетом и Shanghai Qiji Zhifeng, переворачивает эту premise с ног на голову — позволяя агенту самому читать свои трассировки, находить проблемы, модифицировать свой Harness и проверять, действительно ли изменения работают в следующем раунде оценки.

От «люди настраивают Harness» к «агент настраивает Harness»

Основная логика этой статьи интуитивно понятна: раз агент уже выполняет задачи, он лучше всего знает, где он застревает и где ошибается. Вместо того чтобы людям смотреть на миллионы токенов трассировок выполнения и вручную латать, почему бы не позволить агенту сделать это самому?

Рабочий процесс AHE — это замкнутый цикл:

  1. Observability: Агент читает полную трассировку выполнения
  2. Diagnosis: Анализирует, что пошло не так — неправильный вызов инструмента? Слишком жёсткие или слишком слабые ограничения?
  3. Modification: Автоматически модифицирует конфигурацию Harness, промпты или рабочий процесс
  4. Validation: Проверяет на Terminal-Bench 2, действительно ли pass@1 после модификации улучшился

Результаты: Обгон Codex-CLI за 10 раундов

Экспериментальные данные прямы:

  • Стартовая точка: Агент с начальным Harness, pass@1 на Terminal-Bench 2 69,7%
  • После 10 раундов автоматической эволюции: pass@1 улучшился до 77,0%
  • Сравнение: Превзошёл созданный людьми Harness Codex-CLI

Что это значит? Это значит, что Harness Engineering сам по себе эволюционирует от «ремесла» к «автоматизируемому процессу». То, что человеческим инженерам может занять недели для оптимизации Harness, AHE accomplishes всего за несколько итераций.

Значение для индустрии

Эта статья добавляет важный штрих к тренду Harness Engineering начала 2026 года:

  1. Harness больше не статичен: Ранее мы считали Harness относительно фиксированной инфраструктурой — модели меняются, Harness нуждается в подстройке. AHE доказывает, что Harness может адаптироваться к распределению задач самостоятельно, даже постоянно эволюционируя.
  2. Агент становится сильнее без изменений модели: Улучшения AHE полностью происходят от автоматической эволюции на уровне Harness, сама модель не меняется. Это подтверждает консенсус 2026 года — Harness является ключевой переменной, определяющей способность агента.
  3. Ещё один скачок инженерной эффективности: Когда Harness может модифицировать сам себя, разработчикам нужно только определить критерии оценки и начальный фреймворк, оставляя остальное итерационным циклам. Это имеет огромное значение для быстрой адаптации к новым моделям и цепочкам инструментов.

Информация о статье

  • Название: Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent
  • Институты: Университет Фудань, Пекинский университет, Shanghai Qiji Zhifeng
  • Бенчмарк: Terminal-Bench 2

Эта статья может стать важным поворотным моментом для Harness Engineering, переходя от «ручного создания» к «автоматической эволюции». Для команд, строящих системы агентов, её реализация с открытым исходным кодом и будущий прогресс заслуживают внимания.