SWE-Together: Evaluating Coding Agents in Interactive User Sessions
SWE-Together оценивает coding agents как интерактивных партнёров, а не как solver'ов статических задач. Главная идея: в реальной работе пользователь уточняет требования, добавляет constraints и исправляет ошибки агента, поэтому benchmark должен измерять не только финальную корректность репозитория, но и количество вмешательств, нужных для достижения результата.
Методология и данные
1 блокМногошаговый benchmark, воссозданный из реальных сессий «пользователь — агент», с реактивным симулятором пользователя на базе LLM; измеряет итоговую корректность репозитория и число корректирующих реплик обратной связи.
Ключевые результаты
4 блокаЧто измеряли
Фрагмент из раздела отчета
Авторы реконструировали multi-turn benchmark из реальных user-agent coding sessions. Из 11 260 записанных сессий они отобрали 109 repository-level задач, где можно восстановить состояние репозитория, понять цель пользователя и проверить наблюдаемый результат.
Методология
Фрагмент из раздела отчета
Для воспроизведения интерактивных сессий авторы построили reactive LLM-based user simulator. Он сохраняет исходный intent пользователя и даёт feedback, когда agent progress требует уточнения или коррекции. Это позволяет сравнивать разных агентов в одном и том же интерактивном сценарии.
Что отличается от SWE-bench
Фрагмент из раздела отчета
В статических benchmark'ах агент получает полное описание задачи upfront. В SWE-Together задача разворачивается в диалоге: пользователь может уточнять цель, добавлять ограничения и поправлять агента. Поэтому метрика включает две оси: final repository correctness и число corrective feedback turns.
Ключевой результат
Фрагмент из раздела отчета
Эксперименты с frontier coding agents показывают ожидаемый, но важный паттерн: более сильные агенты обычно достигают более высоких final success rates и требуют меньше пользовательских вмешательств. Это связывает качество агента не только с “прошёл тесты”, но и с user experience: насколько дорогим для человека было доведение результата.
Подробности из отчетаПоказатьСкрыть
SWE-Together оценивает coding agents как интерактивных партнёров, а не как solver'ов статических задач. Главная идея: в реальной работе пользователь уточняет требования, добавляет constraints и исправляет ошибки агента, поэтому benchmark должен измерять не только финальную корректность репозитория, но и количество вмешательств, нужных для достижения результата.
Что измеряли
Авторы реконструировали multi-turn benchmark из реальных user-agent coding sessions. Из 11 260 записанных сессий они отобрали 109 repository-level задач, где можно восстановить состояние репозитория, понять цель пользователя и проверить наблюдаемый результат.
Методология
Для воспроизведения интерактивных сессий авторы построили reactive LLM-based user simulator. Он сохраняет исходный intent пользователя и даёт feedback, когда agent progress требует уточнения или коррекции. Это позволяет сравнивать разных агентов в одном и том же интерактивном сценарии.
Что отличается от SWE-bench
В статических benchmark'ах агент получает полное описание задачи upfront. В SWE-Together задача разворачивается в диалоге: пользователь может уточнять цель, добавлять ограничения и поправлять агента. Поэтому метрика включает две оси: final repository correctness и число corrective feedback turns.
Ключевой результат
Эксперименты с frontier coding agents показывают ожидаемый, но важный паттерн: более сильные агенты обычно достигают более высоких final success rates и требуют меньше пользовательских вмешательств. Это связывает качество агента не только с “прошёл тесты”, но и с user experience: насколько дорогим для человека было доведение результата.
Практический вывод
SWE-Together полезен для оценки agentic development tools, где стоимость interaction loop важна почти так же, как финальный код. Для команд это означает, что нужно измерять не только acceptance/success, но и corrections, clarifications, interruptions и effort пользователя.