SWE-Refactor
SWE-Refactor фокусируется на рефакторинге как отдельном сложном классе задач для coding-агентов (источник).
Исследование показывает, что compound refactoring остается заметной слабой зоной даже у сильных моделей.
Срез исследования
5 фактовМетодология
3 блокаRepository-level refactoring set
Как собирали и структурировали данные
SWE-Refactor собирает реальные сценарии рефакторинга, где важны архитектурные ограничения и совместимость изменений.
Многоуровневая валидация
Как собирали и структурировали данные
Успех учитывается не только по прохождению тестов, но и по корректности рефакторинговых преобразований.
Сложные compositional кейсы
Как собирали и структурировали данные
Набор включает сценарии, где нужно согласованно менять несколько частей системы, а не точечно исправлять один участок.
Ключевые результаты
3 выводаCompound refactoring остается сложным
Что важно для engineering-практики
На более сложных сценариях агенты часто не достигают стабильного результата даже при корректном локальном изменении кода.
Тестов недостаточно для оценки
Что важно для engineering-практики
Прохождение compile/test не всегда означает, что рефакторинг сохранит долгосрочную поддерживаемость архитектуры.
Нужен контекст архитектуры
Что важно для engineering-практики
Слабые места проявляются там, где требуются последовательные изменения API, зависимостей и внутренних контрактов.
Риски и интерпретация
3 акцентаRefactoring eval обязателен
Как применять выводы в командах
Командам полезно отдельно тестировать модели на рефакторинговых задачах, если такой тип работы занимает значимую долю SDLC.
Поддерживайте архитектурный review
Как применять выводы в командах
Для сложных преобразований требуется активное участие инженеров, отвечающих за архитектурные инварианты.
Измеряйте maintainability эффект
Как применять выводы в командах
При оценке AI-рефакторинга важно учитывать долгосрочный эффект на читаемость, связанность и технический долг.
Практический итог
SWE-Refactor подчеркивает, что рефакторинг — отдельный и более строгий тест зрелости coding-агентов.
Практический вывод: при внедрении AI в maintenance-контур нужно сохранять архитектурный контроль и отдельные quality-метрики рефакторинга.
Подробности из отчетаПоказатьСкрыть
SWE-Refactor измеряет качество agentic рефакторинга в repository-контексте.
Данные
- 1 099 рефакторингов
- 18 Java-проектов
Метод
- Проверки compile/test дополняются refactoring-specific constraints.
Ключевой вывод
- Compound refactoring остается слабым местом текущих систем, особенно на сложных сценариях.
Практический вывод
Оценка AI-ассистентов в инженерных командах должна включать отдельный refactoring-контур, а не только bug-fix показатели.