Датасет SWE-chat: что раскрыли 6000 реальных сессий coding-агентов

Основной вывод

«SWE-chat: Coding Agent Interactions From Real Users in the Wild» выпускает беспрецедентный датасет: 6000 реальных сессий coding-агентов разработчиков с полными промптами, записями вызовов инструментов и построчной атрибуцией кода человек vs агент.

Обзор датасета

Измерение	Данные
Сессии	6,000+
Разработчики	Реальные инженеры из нескольких компаний
Записано	Промпты, вызовы инструментов, модификации кода, конечные результаты
Гранулярность	Построчная атрибуция кода человек vs агент

Ключевые находки

1. Автономность агента сильно зависит от типа задачи

Тип задачи	Уровень автономности	Типичный сценарий
Простой рефакторинг	75-85%	Переименование переменных, извлечение функций
Исправление багов	55-70%	Исправления известных ошибок, обработка граничных условий
Реализация новых функций	40-55%	Модули средней сложности
Проектирование архитектуры	15-30%	Системное проектирование, выбор технологий

Ключевой инсайт: агенты превосходно справляются с «четко определёнными» задачами, но нуждаются в значительном вмешательстве человека для «размытых требований».

2. Паттерны вызовов инструментов раскрывают узкие места воркфлоу

Чтение файлов доминирует (~40%): агенты тратят значительное время на понимание существующего кода
Редактирование кода (~35%): фактическая модификация кода
Запуск тестов низкий (~15%): агенты реже запускают тесты, чем ожидалось

Это предполагает, что узкое место — не способность писать код, а эффективность понимания существующих кодовых баз.

Рекомендации

Ваша роль	Действие
Пользователи coding-агентов	Пусть агенты делают простой рефакторинг и исправление багов, люди фокусируются на архитектуре
Разработчики Agent-фреймворков	Интегрируйте обнаружение циклов и graceful degradation
Исследователи	Используйте SWE-chat для обучения reward-моделей
Техменеджеры	Устанавливайте реалистичные ожидания на основе данных датасета

Доступ к датасету: Через ссылку в статье.

Основной вывод

Обзор датасета

Ключевые находки

1. Автономность агента сильно зависит от типа задачи

2. Паттерны вызовов инструментов раскрывают узкие места воркфлоу

Рекомендации

Похожие материалы

17 дней, 4 модели: гонка вооружений китайского ИИ с открытым кодом и перекройка ландшафта производительности

Hermes Agent vs OpenClaw: Как выбрать правильный фреймворк AI-агентов в 2026 году?

Загрузки Codex碾压 Claude Code: экосистемическая битва OpenAI с функцией «Migrate to Codex»