Авторы исследования
8 мая 2026 г.Мир284 задачи по категориям: Codebase Q&A (124), написание тестов (90) и рефакторинг (70)

SWE Atlas: Benchmarking Coding Agents Beyond Issue Resolution

SWE Atlas расширяет оценку coding agents за пределы issue resolution. Вместо очередного bug-fix benchmark он проверяет три профессиональных workflow, которые часто встречаются в реальной разработке: codebase Q&A, test writing и refactoring.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Набор benchmark с протоколами оценки под каждую категорию: программные проверки в сочетании с оценкой инженерного качества по рубрикам.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Benchmark включает 284 задачи: 124 задачи Codebase Q&A, 90 задач Test Writing и 70 задач Refactoring. Эти категории важны практически, но обычно недопредставлены в SWE-bench-подобных наборах, где доминируют issue fixing и patch generation.

Методология

Фрагмент из раздела отчета

SWE Atlas использует category-specific evaluation protocols. Оценка объединяет programmatic checks и rubric-based assessment, чтобы проверять не только functional correctness, но и engineering quality: полноту тестов и рефакторинга, maintainability, reusable abstractions и codebase hygiene.

Модели и результаты

Фрагмент из раздела отчета

Авторы сравнивают frontier и open-weight models. GPT-5.4 и Opus 4.7 показывают самые сильные overall results, а лучшие open-weight models всё ещё значительно отстают. Анализ показывает, что top models активно исследуют codebase и используют runtime-driven reasoning.

Где агенты всё ещё слабы

Фрагмент из раздела отчета

Даже лучшие модели стабильно ошибаются на subtle edge cases, complex runtime analysis и adherence to software engineering best practices. Это важный сигнал: агент может дать рабочий на тестах ответ, но не обязательно выполнить задачу как опытный инженер.

Подробности из отчетаПоказать

SWE Atlas расширяет оценку coding agents за пределы issue resolution. Вместо очередного bug-fix benchmark он проверяет три профессиональных workflow, которые часто встречаются в реальной разработке: codebase Q&A, test writing и refactoring.

Что измеряли

Benchmark включает 284 задачи: 124 задачи Codebase Q&A, 90 задач Test Writing и 70 задач Refactoring. Эти категории важны практически, но обычно недопредставлены в SWE-bench-подобных наборах, где доминируют issue fixing и patch generation.

Методология

SWE Atlas использует category-specific evaluation protocols. Оценка объединяет programmatic checks и rubric-based assessment, чтобы проверять не только functional correctness, но и engineering quality: полноту тестов и рефакторинга, maintainability, reusable abstractions и codebase hygiene.

Модели и результаты

Авторы сравнивают frontier и open-weight models. GPT-5.4 и Opus 4.7 показывают самые сильные overall results, а лучшие open-weight models всё ещё значительно отстают. Анализ показывает, что top models активно исследуют codebase и используют runtime-driven reasoning.

Где агенты всё ещё слабы

Даже лучшие модели стабильно ошибаются на subtle edge cases, complex runtime analysis и adherence to software engineering best practices. Это важный сигнал: агент может дать рабочий на тестах ответ, но не обязательно выполнить задачу как опытный инженер.

Практический вывод

SWE Atlas полезен для оценки “полезности в команде”, а не только способности закрыть issue. Для AI4SDLC особенно важны test writing и refactoring: именно эти задачи определяют, превращается ли AI в ускорение качественной разработки или только в ускорение генерации патчей.