Авторы исследования
22 мая 2026 г.Мир48 долгогоризонтных задач эволюции ПО из release notes 7 зрелых open-source проектов на Python; в среднем 21 файл и 874 теста на задачу

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

SWE-EVO оценивает coding agents в long-horizon software evolution scenarios: не изолированный bug fix, а изменения, похожие на release-level evolution — много файлов, несколько шагов, сохранение существующего поведения и работа с высоким уровнем требований.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Benchmark, построенный из release notes, с многошаговыми изменениями по многим файлам; оценивается наборами тестов и метрикой Fix Rate для частичного прогресса.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Benchmark построен из release notes семи зрелых open-source Python projects. Он включает 48 задач, каждая из которых требует multi-step modifications, в среднем затрагивает 21 файл и проверяется test suites со средним размером 874 tests per instance.

Почему это сложнее SWE-Bench

Фрагмент из раздела отчета

SWE-Bench-подобные задачи часто фокусируются на одном issue: исправить баг или добавить небольшую функцию. SWE-EVO ближе к реальной эволюции продукта: агент должен понять high-level requirements, координировать изменения по нескольким файлам и не сломать существующую функциональность.

Ключевой результат

Фрагмент из раздела отчета

Эксперименты показывают большой capability gap: GPT-5.4 with OpenHands достигает 25% на SWE-EVO, тогда как GPT-5.2 на SWE-Bench Verified показывает 72,80%. Это подчёркивает, что высокие результаты на single-issue benchmarks не означают готовность к sustained multi-file reasoning.

Fix Rate как частичный прогресс

Фрагмент из раздела отчета

Авторы предлагают Fix Rate — метрику, которая учитывает частичный прогресс на сложных long-horizon задачах. Это важно, потому что binary pass/fail может скрывать полезную, но неполную работу агента, особенно когда задача требует серии связанных изменений.

Подробности из отчетаПоказать

SWE-EVO оценивает coding agents в long-horizon software evolution scenarios: не изолированный bug fix, а изменения, похожие на release-level evolution — много файлов, несколько шагов, сохранение существующего поведения и работа с высоким уровнем требований.

Что измеряли

Benchmark построен из release notes семи зрелых open-source Python projects. Он включает 48 задач, каждая из которых требует multi-step modifications, в среднем затрагивает 21 файл и проверяется test suites со средним размером 874 tests per instance.

Почему это сложнее SWE-Bench

SWE-Bench-подобные задачи часто фокусируются на одном issue: исправить баг или добавить небольшую функцию. SWE-EVO ближе к реальной эволюции продукта: агент должен понять high-level requirements, координировать изменения по нескольким файлам и не сломать существующую функциональность.

Ключевой результат

Эксперименты показывают большой capability gap: GPT-5.4 with OpenHands достигает 25% на SWE-EVO, тогда как GPT-5.2 на SWE-Bench Verified показывает 72,80%. Это подчёркивает, что высокие результаты на single-issue benchmarks не означают готовность к sustained multi-file reasoning.

Fix Rate как частичный прогресс

Авторы предлагают Fix Rate — метрику, которая учитывает частичный прогресс на сложных long-horizon задачах. Это важно, потому что binary pass/fail может скрывать полезную, но неполную работу агента, особенно когда задача требует серии связанных изменений.

Практический вывод

SWE-EVO полезен для оценки агентов, которым доверяют feature evolution, migrations и release-level changes. Для команд он показывает, что агентные инструменты нужно проверять на multi-file consistency, regression risk и способности удерживать high-level requirements на протяжении всей задачи.