METR10 марта 2026 г.Мир296 AI PRs reviewed by maintainers across 3 repositories

Many SWE-bench-Passing PRs Would Not Be Merged into Main

В заметке METR про SWE-bench maintainer gap benchmark-pass сопоставляется с реальными maintainer-решениями о merge (источник).

Итог: прохождение benchmark-теста само по себе не гарантирует, что PR приемлем для основного branch в реальном проекте.

ЭкспериментКейс-стадиСтатистикаОткрыть источник

Срез исследования

5 фактов
296
Проверенных AI PR
3
Репозиториев
Maintainer review vs grader
Метод
Mergeability gap
Фокус
10 марта 2026
Дата

Методология

3 блока

Maintainer-centered оценка

Как собирали и структурировали данные

human merge verdicts

METR сопоставляет автоматический benchmark-pass с реальными решениями мейнтейнеров по приемке PR в main branch.

Сравнение сигналов качества

Как собирали и структурировали данные

grader vs maintainer

Разрыв между автоматическим скорингом и инженерной приемкой трактуется как риск переоценки практической полезности модели.

Repository-level контекст

Как собирали и структурировали данные

3 repos296 PRs

Анализ на уровне конкретных PR и ожиданий maintainers делает результаты ближе к production-реальности.

Ключевые результаты

3 вывода

Merge rates ниже benchmark-pass

Что важно для engineering-практики

material gap

Значимая часть PR, которые проходят benchmark-критерии, в реальности не принимается maintainers в основной branch.

Сигнал leaderboard завышает пользу

Что важно для engineering-практики

practical utility overestimate

Наивная интерпретация SWE-bench score может переоценивать экономическую и эксплуатационную ценность результата.

Качество критериев важно

Что важно для engineering-практики

maintainability matters

Maintainers учитывают поддерживаемость, стиль и интеграционные риски, которые не полностью покрываются автоматическим grader.

Риски и интерпретация

3 акцента

Pass != mergeability

Как применять выводы в командах

production acceptance

Для оценки модели в команде стоит измерять долю PR, реально готовых к merge после review, а не только pass-rate benchmark-а.

Нужны human-in-the-loop evals

Как применять выводы в командах

maintainer feedback

Инженерные решения по внедрению лучше принимать на основе eval-процесса, где участвуют maintainer/reviewer роли.

Комбинируйте метрики

Как применять выводы в командах

pass + merge + rework

Устойчивый набор KPI должен включать pass rate, merge rate и объем последующего rework.

Практический итог

METR фиксирует важный разрыв между benchmark-сигналом и реальной инженерной приемкой изменений.

Практический приоритет — строить оценку coding-моделей вокруг mergeability и поддерживаемости, а не только around leaderboard score.

Подробности из отчетаПоказать

METR сравнил benchmark-pass с реальными maintainer-вердиктами для AI-сгенерированных PR.

Данные

  • 296 AI PR
  • 3 репозитория

Метод

  • Сопоставление автоматического grader-pass и решений мейнтейнеров о merge в main branch.

Вывод

  • Maintainer merge rates заметно ниже benchmark-pass, что показывает ограниченность «чтения по одному числу».

Практический смысл

При выборе и внедрении coding-агентов нужно учитывать mergeability, maintainability и downstream rework, а не только benchmark leaderboard.