SWE-INTERACT: Reimagining SWE Benchmarks as User-Driven Long-Horizon Coding Sessions
SWE-INTERACT переосмысляет SWE benchmarks как user-driven long-horizon coding sessions. Исследование показывает, что способность агента решать single-turn задачи плохо переносится на интерактивную работу, где требования раскрываются постепенно, пользователь даёт feedback, а агент должен помнить ограничения и адаптироваться.
Методология и данные
1 блокBenchmark с симулятором пользователя: он стартует с неполных инструкций, осматривает рабочее пространство агента и даёт целевую обратную связь, правки и новые ограничения.
Ключевые результаты
4 блокаЧто измеряли
Фрагмент из раздела отчета
Авторы строят testbed для multi-turn interactive coding tasks. В отличие от классических SWE benchmarks, агент не получает полные требования upfront: user simulator начинает с неполных или расплывчатых инструкций, затем постепенно раскрывает требования, проверяет workspace агента и добавляет targeted feedback, revisions и новые constraints.
Методология
Фрагмент из раздела отчета
SWE-INTERACT grounded in large-scale studies of real coding-agent interactions. Benchmark проверяет три способности: discover user intent, adapt to evolving requirements и build on prior work. Это ближе к реальному workflow, где задача уточняется в процессе, а не приходит как идеально сформулированный issue.
Ключевой результат
Фрагмент из раздела отчета
Сильная performance на single-turn SWE tasks не гарантирует успех в multi-turn workflow. Лучшие модели решают примерно 50% single-turn baseline задач, но только около 25% соответствующих SWE-INTERACT задач. Это показывает, что interactive goal discovery и iterative refinement — отдельная capability axis.
Ошибки сильных и слабых моделей
Фрагмент из раздела отчета
Сильные модели вроде Opus 4.8 и GPT 5.5 лучше стартуют даже при расплывчатых инструкциях и дольше удерживают прогресс, но всё ещё страдают от over-agentic coding, забывания требований и технических ошибок. Более слабые модели чаще плохо стартуют, рано сдаются, игнорируют инструкции и переделывают собственный код.
Подробности из отчетаПоказатьСкрыть
SWE-INTERACT переосмысляет SWE benchmarks как user-driven long-horizon coding sessions. Исследование показывает, что способность агента решать single-turn задачи плохо переносится на интерактивную работу, где требования раскрываются постепенно, пользователь даёт feedback, а агент должен помнить ограничения и адаптироваться.
Что измеряли
Авторы строят testbed для multi-turn interactive coding tasks. В отличие от классических SWE benchmarks, агент не получает полные требования upfront: user simulator начинает с неполных или расплывчатых инструкций, затем постепенно раскрывает требования, проверяет workspace агента и добавляет targeted feedback, revisions и новые constraints.
Методология
SWE-INTERACT grounded in large-scale studies of real coding-agent interactions. Benchmark проверяет три способности: discover user intent, adapt to evolving requirements и build on prior work. Это ближе к реальному workflow, где задача уточняется в процессе, а не приходит как идеально сформулированный issue.
Ключевой результат
Сильная performance на single-turn SWE tasks не гарантирует успех в multi-turn workflow. Лучшие модели решают примерно 50% single-turn baseline задач, но только около 25% соответствующих SWE-INTERACT задач. Это показывает, что interactive goal discovery и iterative refinement — отдельная capability axis.
Ошибки сильных и слабых моделей
Сильные модели вроде Opus 4.8 и GPT 5.5 лучше стартуют даже при расплывчатых инструкциях и дольше удерживают прогресс, но всё ещё страдают от over-agentic coding, забывания требований и технических ошибок. Более слабые модели чаще плохо стартуют, рано сдаются, игнорируют инструкции и переделывают собственный код.
Практический вывод
SWE-INTERACT важен для команд, которые оценивают coding agents не как batch-solvers, а как interactive teammates. Для production-использования нужны метрики памяти требований, реакции на feedback, устойчивости к ambiguity и способности не ломать уже сделанную работу.