Авторы исследования
29 июня 2026 г.Мир109 задач уровня репозитория, отобранных из 11 260 записанных сессий кодинга «пользователь — агент»

SWE-Together: Evaluating Coding Agents in Interactive User Sessions

SWE-Together оценивает coding agents как интерактивных партнёров, а не как solver'ов статических задач. Главная идея: в реальной работе пользователь уточняет требования, добавляет constraints и исправляет ошибки агента, поэтому benchmark должен измерять не только финальную корректность репозитория, но и количество вмешательств, нужных для достижения результата.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Многошаговый benchmark, воссозданный из реальных сессий «пользователь — агент», с реактивным симулятором пользователя на базе LLM; измеряет итоговую корректность репозитория и число корректирующих реплик обратной связи.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Авторы реконструировали multi-turn benchmark из реальных user-agent coding sessions. Из 11 260 записанных сессий они отобрали 109 repository-level задач, где можно восстановить состояние репозитория, понять цель пользователя и проверить наблюдаемый результат.

Методология

Фрагмент из раздела отчета

Для воспроизведения интерактивных сессий авторы построили reactive LLM-based user simulator. Он сохраняет исходный intent пользователя и даёт feedback, когда agent progress требует уточнения или коррекции. Это позволяет сравнивать разных агентов в одном и том же интерактивном сценарии.

Что отличается от SWE-bench

Фрагмент из раздела отчета

В статических benchmark'ах агент получает полное описание задачи upfront. В SWE-Together задача разворачивается в диалоге: пользователь может уточнять цель, добавлять ограничения и поправлять агента. Поэтому метрика включает две оси: final repository correctness и число corrective feedback turns.

Ключевой результат

Фрагмент из раздела отчета

Эксперименты с frontier coding agents показывают ожидаемый, но важный паттерн: более сильные агенты обычно достигают более высоких final success rates и требуют меньше пользовательских вмешательств. Это связывает качество агента не только с “прошёл тесты”, но и с user experience: насколько дорогим для человека было доведение результата.

Подробности из отчетаПоказать

SWE-Together оценивает coding agents как интерактивных партнёров, а не как solver'ов статических задач. Главная идея: в реальной работе пользователь уточняет требования, добавляет constraints и исправляет ошибки агента, поэтому benchmark должен измерять не только финальную корректность репозитория, но и количество вмешательств, нужных для достижения результата.

Что измеряли

Авторы реконструировали multi-turn benchmark из реальных user-agent coding sessions. Из 11 260 записанных сессий они отобрали 109 repository-level задач, где можно восстановить состояние репозитория, понять цель пользователя и проверить наблюдаемый результат.

Методология

Для воспроизведения интерактивных сессий авторы построили reactive LLM-based user simulator. Он сохраняет исходный intent пользователя и даёт feedback, когда agent progress требует уточнения или коррекции. Это позволяет сравнивать разных агентов в одном и том же интерактивном сценарии.

Что отличается от SWE-bench

В статических benchmark'ах агент получает полное описание задачи upfront. В SWE-Together задача разворачивается в диалоге: пользователь может уточнять цель, добавлять ограничения и поправлять агента. Поэтому метрика включает две оси: final repository correctness и число corrective feedback turns.

Ключевой результат

Эксперименты с frontier coding agents показывают ожидаемый, но важный паттерн: более сильные агенты обычно достигают более высоких final success rates и требуют меньше пользовательских вмешательств. Это связывает качество агента не только с “прошёл тесты”, но и с user experience: насколько дорогим для человека было доведение результата.

Практический вывод

SWE-Together полезен для оценки agentic development tools, где стоимость interaction loop важна почти так же, как финальный код. Для команд это означает, что нужно измерять не только acceptance/success, но и corrections, clarifications, interruptions и effort пользователя.