C
ChaoBro

Датасет SWE-chat: что раскрыли 6000 реальных сессий coding-агентов

Датасет SWE-chat: что раскрыли 6000 реальных сессий coding-агентов

Основной вывод

«SWE-chat: Coding Agent Interactions From Real Users in the Wild» выпускает беспрецедентный датасет: 6000 реальных сессий coding-агентов разработчиков с полными промптами, записями вызовов инструментов и построчной атрибуцией кода человек vs агент.

Обзор датасета

ИзмерениеДанные
Сессии6,000+
РазработчикиРеальные инженеры из нескольких компаний
ЗаписаноПромпты, вызовы инструментов, модификации кода, конечные результаты
ГранулярностьПострочная атрибуция кода человек vs агент

Ключевые находки

1. Автономность агента сильно зависит от типа задачи

Тип задачиУровень автономностиТипичный сценарий
Простой рефакторинг75-85%Переименование переменных, извлечение функций
Исправление багов55-70%Исправления известных ошибок, обработка граничных условий
Реализация новых функций40-55%Модули средней сложности
Проектирование архитектуры15-30%Системное проектирование, выбор технологий

Ключевой инсайт: агенты превосходно справляются с «четко определёнными» задачами, но нуждаются в значительном вмешательстве человека для «размытых требований».

2. Паттерны вызовов инструментов раскрывают узкие места воркфлоу

  • Чтение файлов доминирует (~40%): агенты тратят значительное время на понимание существующего кода
  • Редактирование кода (~35%): фактическая модификация кода
  • Запуск тестов низкий (~15%): агенты реже запускают тесты, чем ожидалось

Это предполагает, что узкое место — не способность писать код, а эффективность понимания существующих кодовых баз.

Рекомендации

Ваша рольДействие
Пользователи coding-агентовПусть агенты делают простой рефакторинг и исправление багов, люди фокусируются на архитектуре
Разработчики Agent-фреймворковИнтегрируйте обнаружение циклов и graceful degradation
ИсследователиИспользуйте SWE-chat для обучения reward-моделей
ТехменеджерыУстанавливайте реалистичные ожидания на основе данных датасета

Доступ к датасету: Через ссылку в статье.