research authors

3 февраля 2026 г.Мир1,099 refactorings from 18 Java projects

SWE-Refactor

SWE-Refactor фокусируется на рефакторинге как отдельном сложном классе задач для coding-агентов (источник).

Исследование показывает, что compound refactoring остается заметной слабой зоной даже у сильных моделей.

ЭкспериментКейс-стадиОткрыть источник

Срез исследования

5 фактов

1 099

Рефакторингов

Java-проектов

Compile + tests + refactoring checks

Проверки

Compound refactoring

Фокус

3 февраля 2026

Дата

Методология

3 блока

Repository-level refactoring set

Как собирали и структурировали данные

1,099 refactorings

SWE-Refactor собирает реальные сценарии рефакторинга, где важны архитектурные ограничения и совместимость изменений.

Многоуровневая валидация

Как собирали и структурировали данные

compiletestsrefactoring constraints

Успех учитывается не только по прохождению тестов, но и по корректности рефакторинговых преобразований.

Сложные compositional кейсы

Как собирали и структурировали данные

compound transformations

Набор включает сценарии, где нужно согласованно менять несколько частей системы, а не точечно исправлять один участок.

Ключевые результаты

3 вывода

Compound refactoring остается сложным

Что важно для engineering-практики

low success on hard cases

На более сложных сценариях агенты часто не достигают стабильного результата даже при корректном локальном изменении кода.

Тестов недостаточно для оценки

Что важно для engineering-практики

semantic quality gap

Прохождение compile/test не всегда означает, что рефакторинг сохранит долгосрочную поддерживаемость архитектуры.

Нужен контекст архитектуры

Что важно для engineering-практики

structural reasoning

Слабые места проявляются там, где требуются последовательные изменения API, зависимостей и внутренних контрактов.

Риски и интерпретация

3 акцента

Refactoring eval обязателен

Как применять выводы в командах

quality beyond tests

Командам полезно отдельно тестировать модели на рефакторинговых задачах, если такой тип работы занимает значимую долю SDLC.

Поддерживайте архитектурный review

Как применять выводы в командах

human architecture oversight

Для сложных преобразований требуется активное участие инженеров, отвечающих за архитектурные инварианты.

Измеряйте maintainability эффект

Как применять выводы в командах

tech debt impact

При оценке AI-рефакторинга важно учитывать долгосрочный эффект на читаемость, связанность и технический долг.

Практический итог

SWE-Refactor подчеркивает, что рефакторинг — отдельный и более строгий тест зрелости coding-агентов.

Практический вывод: при внедрении AI в maintenance-контур нужно сохранять архитектурный контроль и отдельные quality-метрики рефакторинга.

Подробности из отчетаПоказать

SWE-Refactor измеряет качество agentic рефакторинга в repository-контексте.

Данные

1 099 рефакторингов
18 Java-проектов

Метод

Проверки compile/test дополняются refactoring-specific constraints.

Ключевой вывод

Compound refactoring остается слабым местом текущих систем, особенно на сложных сценариях.

Практический вывод

Оценка AI-ассистентов в инженерных командах должна включать отдельный refactoring-контур, а не только bug-fix показатели.