SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios
SWE-EVO оценивает coding agents в long-horizon software evolution scenarios: не изолированный bug fix, а изменения, похожие на release-level evolution — много файлов, несколько шагов, сохранение существующего поведения и работа с высоким уровнем требований.
Методология и данные
1 блокBenchmark, построенный из release notes, с многошаговыми изменениями по многим файлам; оценивается наборами тестов и метрикой Fix Rate для частичного прогресса.
Ключевые результаты
4 блокаЧто измеряли
Фрагмент из раздела отчета
Benchmark построен из release notes семи зрелых open-source Python projects. Он включает 48 задач, каждая из которых требует multi-step modifications, в среднем затрагивает 21 файл и проверяется test suites со средним размером 874 tests per instance.
Почему это сложнее SWE-Bench
Фрагмент из раздела отчета
SWE-Bench-подобные задачи часто фокусируются на одном issue: исправить баг или добавить небольшую функцию. SWE-EVO ближе к реальной эволюции продукта: агент должен понять high-level requirements, координировать изменения по нескольким файлам и не сломать существующую функциональность.
Ключевой результат
Фрагмент из раздела отчета
Эксперименты показывают большой capability gap: GPT-5.4 with OpenHands достигает 25% на SWE-EVO, тогда как GPT-5.2 на SWE-Bench Verified показывает 72,80%. Это подчёркивает, что высокие результаты на single-issue benchmarks не означают готовность к sustained multi-file reasoning.
Fix Rate как частичный прогресс
Фрагмент из раздела отчета
Авторы предлагают Fix Rate — метрику, которая учитывает частичный прогресс на сложных long-horizon задачах. Это важно, потому что binary pass/fail может скрывать полезную, но неполную работу агента, особенно когда задача требует серии связанных изменений.
Подробности из отчетаПоказатьСкрыть
SWE-EVO оценивает coding agents в long-horizon software evolution scenarios: не изолированный bug fix, а изменения, похожие на release-level evolution — много файлов, несколько шагов, сохранение существующего поведения и работа с высоким уровнем требований.
Что измеряли
Benchmark построен из release notes семи зрелых open-source Python projects. Он включает 48 задач, каждая из которых требует multi-step modifications, в среднем затрагивает 21 файл и проверяется test suites со средним размером 874 tests per instance.
Почему это сложнее SWE-Bench
SWE-Bench-подобные задачи часто фокусируются на одном issue: исправить баг или добавить небольшую функцию. SWE-EVO ближе к реальной эволюции продукта: агент должен понять high-level requirements, координировать изменения по нескольким файлам и не сломать существующую функциональность.
Ключевой результат
Эксперименты показывают большой capability gap: GPT-5.4 with OpenHands достигает 25% на SWE-EVO, тогда как GPT-5.2 на SWE-Bench Verified показывает 72,80%. Это подчёркивает, что высокие результаты на single-issue benchmarks не означают готовность к sustained multi-file reasoning.
Fix Rate как частичный прогресс
Авторы предлагают Fix Rate — метрику, которая учитывает частичный прогресс на сложных long-horizon задачах. Это важно, потому что binary pass/fail может скрывать полезную, но неполную работу агента, особенно когда задача требует серии связанных изменений.
Практический вывод
SWE-EVO полезен для оценки агентов, которым доверяют feature evolution, migrations и release-level changes. Для команд он показывает, что агентные инструменты нужно проверять на multi-file consistency, regression risk и способности удерживать high-level requirements на протяжении всей задачи.