Большинство людей при плохой производительности Agent-задач первым делом переключаются на более крупную модель. Автор Forge пошёл другим путём: не менять модель, а добавить ограничения. Результат: успешность Agent-задач 8B модели выросла с 53% до 99%.
Этот фреймворк набрал 324 балла на Hacker News. После изучения кода и документации основная идея довольно проста, но инженерная реализация чистая.
Основная идея: Guardrails — не «ограничения», а «рельсы»
Философия дизайна Forge интересна. Он считает, что малые модели проваливаются в Agent-сценариях не потому что «недостаточно умны», а потому что у них нет чётких поведенческих границ.
Guardrails здесь не ограничивают, что модель «не может делать», а определяют, «как следует делать». Фреймворк через middleware-механизм вставляет логику валидации и коррекции до и после вызовов инструментов.
53% → 99%: как это достигнуто
В README есть бенчмарк-данные. Та же 8B модель, тот же набор Agent-задач:
- Без guardrails: 53% успешности
- С Forge guardrails: 99% успешности
Разрыв впечатляющий. Задачи — типичные многошаговые Agent-сценарии. Без guardrails модель легко сбивается с пути на каком-то шаге, и дальше всё идёт неправильно. Guardrails проверяют результат каждого шага и запускают повтор или коррекцию при необходимости.
Архитектура: цепочка middleware
Ядро Forge — цепочка middleware. Вывод модели проходит через несколько проверок качества:
- Предобработка входных данных
- Валидация вызовов инструментов
- Верификация вывода
- Восстановление при ошибках
- Управление состоянием
Кому это нужно
Если вы уже используете GPT-4o или Claude Opus, маржинальная польза Forge невелика. Ценность в трёх сценариях: локальное развёртывание, чувствительность к стоимости, требования приватности.
Основные источники: