Авторы исследования

29 июня 2026 г.МирМногошаговые интерактивные задачи по разработке ПО, управляемые пользователем: требования раскрываются постепенно, с обратной связью от пользователя

SWE-INTERACT: Reimagining SWE Benchmarks as User-Driven Long-Horizon Coding Sessions

SWE-INTERACT переосмысляет SWE benchmarks как user-driven long-horizon coding sessions. Исследование показывает, что способность агента решать single-turn задачи плохо переносится на интерактивную работу, где требования раскрываются постепенно, пользователь даёт feedback, а агент должен помнить ограничения и адаптироваться.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Benchmark с симулятором пользователя: он стартует с неполных инструкций, осматривает рабочее пространство агента и даёт целевую обратную связь, правки и новые ограничения.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Авторы строят testbed для multi-turn interactive coding tasks. В отличие от классических SWE benchmarks, агент не получает полные требования upfront: user simulator начинает с неполных или расплывчатых инструкций, затем постепенно раскрывает требования, проверяет workspace агента и добавляет targeted feedback, revisions и новые constraints.

Методология

Фрагмент из раздела отчета

SWE-INTERACT grounded in large-scale studies of real coding-agent interactions. Benchmark проверяет три способности: discover user intent, adapt to evolving requirements и build on prior work. Это ближе к реальному workflow, где задача уточняется в процессе, а не приходит как идеально сформулированный issue.

Ключевой результат

Фрагмент из раздела отчета

Сильная performance на single-turn SWE tasks не гарантирует успех в multi-turn workflow. Лучшие модели решают примерно 50% single-turn baseline задач, но только около 25% соответствующих SWE-INTERACT задач. Это показывает, что interactive goal discovery и iterative refinement — отдельная capability axis.

Ошибки сильных и слабых моделей

Фрагмент из раздела отчета

Сильные модели вроде Opus 4.8 и GPT 5.5 лучше стартуют даже при расплывчатых инструкциях и дольше удерживают прогресс, но всё ещё страдают от over-agentic coding, забывания требований и технических ошибок. Более слабые модели чаще плохо стартуют, рано сдаются, игнорируют инструкции и переделывают собственный код.

Подробности из отчетаПоказать

Что измеряли

Методология

Ключевой результат

Ошибки сильных и слабых моделей

Практический вывод

SWE-INTERACT важен для команд, которые оценивают coding agents не как batch-solvers, а как interactive teammates. Для production-использования нужны метрики памяти требований, реакции на feedback, устойчивости к ambiguity и способности не ломать уже сделанную работу.