Авторы исследования

8 мая 2026 г.Мир284 задачи по категориям: Codebase Q&A (124), написание тестов (90) и рефакторинг (70)

SWE Atlas: Benchmarking Coding Agents Beyond Issue Resolution

SWE Atlas расширяет оценку coding agents за пределы issue resolution. Вместо очередного bug-fix benchmark он проверяет три профессиональных workflow, которые часто встречаются в реальной разработке: codebase Q&A, test writing и refactoring.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Набор benchmark с протоколами оценки под каждую категорию: программные проверки в сочетании с оценкой инженерного качества по рубрикам.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Benchmark включает 284 задачи: 124 задачи Codebase Q&A, 90 задач Test Writing и 70 задач Refactoring. Эти категории важны практически, но обычно недопредставлены в SWE-bench-подобных наборах, где доминируют issue fixing и patch generation.

Методология

Фрагмент из раздела отчета

SWE Atlas использует category-specific evaluation protocols. Оценка объединяет programmatic checks и rubric-based assessment, чтобы проверять не только functional correctness, но и engineering quality: полноту тестов и рефакторинга, maintainability, reusable abstractions и codebase hygiene.

Модели и результаты

Фрагмент из раздела отчета

Авторы сравнивают frontier и open-weight models. GPT-5.4 и Opus 4.7 показывают самые сильные overall results, а лучшие open-weight models всё ещё значительно отстают. Анализ показывает, что top models активно исследуют codebase и используют runtime-driven reasoning.

Где агенты всё ещё слабы

Фрагмент из раздела отчета

Даже лучшие модели стабильно ошибаются на subtle edge cases, complex runtime analysis и adherence to software engineering best practices. Это важный сигнал: агент может дать рабочий на тестах ответ, но не обязательно выполнить задачу как опытный инженер.

Подробности из отчетаПоказать

Что измеряли

Методология

Модели и результаты

Где агенты всё ещё слабы

Практический вывод

SWE Atlas полезен для оценки “полезности в команде”, а не только способности закрыть issue. Для AI4SDLC особенно важны test writing и refactoring: именно эти задачи определяют, превращается ли AI в ускорение качественной разработки или только в ускорение генерации патчей.