Заключение в начале
Команда Cursor провела простой, но глубокий эксперимент:
Та же модель (GPT-5.2-Codex), изменён только Agent Harness — результат Terminal-Bench 2.0 вырос с 52.8% до 66.5%, рейтинг поднялся с места вне Top 30 до Top 5.
Это подтверждает критически важный вывод: В агентных сценариях важность архитектуры (Harness) сопоставима с важностью самой модели.
Формула: Agent = Model + Harness
Это ключевая формула, предложенная командой Cursor:
- Model: Языковая модель, обеспечивающая способности понимания и генерации
- Harness: Слой агентного фреймворка, отвечающий за декомпозицию задач, оркестровку инструментов, управление контекстом и восстановление после ошибок
Модель необходима, но недостаточна. Именно Harness превращает языковую модель в полезного агента.
Четыре ключевых измерения оптимизации Harness
1. Стратегия управления контекстом
| Стратегия | До оптимизации | После оптимизации |
|---|---|---|
| Использование контекстного окна | Линейное заполнение, частые переполнения | Многоуровневое управление, приоритет важной информации |
| Сохранение истории | Хранит все записи разговоров | Интеллектуальное сжатие, сохранение узлов принятия решений |
| Контекст файлов | Загружает все файлы целиком | Загрузка по требованию + кэширование сводок |
2. Декомпозиция задач и планирование
- До оптимизации: Напрямую просить модель выполнить сложные задачи, высокий процент отказов
- После оптимизации: Модель сначала создаёт план выполнения → Выполняет пошагово → Проверяет каждый шаг → Автоматический повтор при ошибке с откатом
3. Оркестровка инструментов
- Последовательно vs Параллельно: Определять шаги, которые можно выполнять параллельно, сокращая общее время выполнения
- Выбор инструментов: Динамически выбирать наиболее подходящий инструмент вместо использования фиксированной цепочки
- Проверка результатов: Проверять качество вывода после каждого вызова инструмента; при неудовлетворительном результате корректировать параметры и повторять
4. Механизм восстановления после ошибок
- До оптимизации: Немедленная остановка при возникновении ошибки
- После оптимизации: Многоуровневая обработка ошибок → Автоматическая диагностика → Попытка исправления → Сообщение пользователю после превышения порога повторных попыток
Почему это важно
Влияние на индустрию
Внимание AI-сообщества чрезмерно сосредоточено на способностях моделей, при этом игнорируется пространство оптимизации слоя Harness. Эксперимент Cursor доказывает:
- Оптимизация Harness может раскрыть дополнительно 10-15% производительности (52.8% → 66.5%)
- Затраты значительно ниже, чем обновление модели: Не нужны более дорогие API-вызовы
- Переносимость: Стратегии оптимизации Harness применимы к разным моделям
Выводы для разработчиков
- Не зацикливайтесь на переключении моделей: Прежде чем жаловаться, что модель недостаточно хороша, проверьте, оптимизирован ли ваш Agent Harness
- Harness — это накапливающееся конкурентное преимущество: Модели быстро итерируются, но хорошая архитектура Harness приносит долгосрочную пользу
- Open-source проекты Harness заслуживают внимания: Фреймворки типа OpenClaw и Hermes содержат ценные идеи архитектурного дизайна
Рекомендации к действию
| Сценарий | Рекомендация |
|---|---|
| Существующие агентные приложения | Проведите аудит логики управления контекстом, восстановления после ошибок и оркестровки инструментов в слое Harness |
| Новые агентные проекты | Сначала спроектируйте архитектуру Harness, затем выбирайте модель |
| Сценарии, чувствительные к стоимости | Оптимизация Harness даёт более высокий ROI, чем переход на более дорогие модели |
| Модель уже оптимальна | Harness — единственное направление для оптимизации |
Итог
«Модель — это двигатель, Harness — это коробка передач.» Хороший двигатель с плохой коробкой передач не покажет хорошей производительности. Эксперимент Cursor доказывает данными, что в агентной гонке важность оптимизации архитектуры серьёзно недооценивается.