Авторы исследования

14 мая 2026 г.Мир12 цепочек обновлений по 9 реальным Python-пакетам; 155 переходов между версиями и 1 660 обоснованных требований к обновлению

SWE-Chain: Benchmarking Coding Agents on Chained Release-Level Package Upgrades

SWE-Chain оценивает coding agents на chained release-level package upgrades: не разовый issue fix, а последовательность обновлений, где каждое следующее изменение строится на кодовой базе, которую агент уже изменил. Это ближе к реальному maintenance, где ошибки и технический долг наследуются между версиями.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Benchmark для цепочек обновлений пакетов на уровне релизов; требования синтезируются сопоставлением release notes с диффами кода для каждого перехода между версиями.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Benchmark содержит 12 upgrade chains across 9 real Python packages, 155 version transitions и 1 660 grounded upgrade requirements. Requirements синтезируются из release notes и code diffs, чтобы задачи были одновременно реалистичными, информативными для агента и выполнимыми.

Методология

Фрагмент из раздела отчета

Каждый transition описывает upgrade между версиями пакета. Агент должен применить изменения так, чтобы сохранить существующую функциональность и подготовить код к следующему шагу цепочки. В отличие от изолированных задач, здесь качество предыдущего решения влияет на последующие transitions.

Результаты frontier agents

Фрагмент из раздела отчета

По девяти frontier agent-model configurations средний результат составил 44,8% resolving, 65,4% precision и 50,2% F1 в Build+Fix режиме. Лучший результат показал Claude-Opus-4.7 with Claude Code: 60,8% resolving, 80,6% precision и 68,5% F1.

Почему это важно

Фрагмент из раздела отчета

SWE-Chain показывает, что current agents struggle to make correct upgrades across chained package releases without breaking existing functionality. Это именно тот класс риска, который возникает в production: агент может успешно пройти один шаг, но оставить состояние, которое ухудшит следующие изменения.

Подробности из отчетаПоказать

Что измеряли

Методология

Результаты frontier agents

Почему это важно

Практический вывод

Для оценки AI-maintenance tools нужны chained benchmarks: migration chains, dependency upgrades, API changes и release-level evolution. Командам важно измерять не только “решил текущую задачу”, но и “оставил ли агент кодовую базу в состоянии, пригодном для следующего изменения”.