Code Review Agent Benchmark
Code Review Agent Benchmark (c-CRAB) проверяет, насколько AI-агенты готовы не только писать код, но и ревьюить pull requests. Это важный сдвиг: если AI начинает генерировать всё больше кода, то bottleneck качества переезжает в review, validation и gatekeeping.
Методология и данные
1 блокДатасет, систематически собранный из ревью людей; ревью, сгенерированные агентами, проверяются тестами, порождёнными из человеческих ревью.
Ключевые результаты
4 блокаЧто измеряли
Фрагмент из раздела отчета
Авторы собрали benchmark для code review agents. Агент получает pull request — сгенерированный человеком или другим агентом — и должен создать review. Затем evaluation framework проверяет, обнаружил ли агент проблемы, которые в человеческом review считались значимыми.
Методология
Фрагмент из раздела отчета
c-CRAB построен из human reviews: для каждого pull request instance авторы генерируют соответствующие tests, которые позволяют оценить agent-generated review. Такой подход превращает человеческое ревью в held-out quality gate для автоматических review agents.
Какие агенты проверяли
Фрагмент из раздела отчета
В исследовании оцениваются open-source PR-agent, а также commercial code review agents from Devin, Claude Code and Codex. Это делает benchmark практичным: он не ограничивается чистыми LLM, а проверяет реальные agent products или agentic workflows.
Ключевой результат
Фрагмент из раздела отчета
Существующие review agents together solve only around 40% of c-CRAB tasks. Это означает, что AI code review пока далеко от полного замещения человеческой проверки, особенно когда требуется понять intent PR, качество изменений и скрытые риски.
Подробности из отчетаПоказатьСкрыть
Code Review Agent Benchmark (c-CRAB) проверяет, насколько AI-агенты готовы не только писать код, но и ревьюить pull requests. Это важный сдвиг: если AI начинает генерировать всё больше кода, то bottleneck качества переезжает в review, validation и gatekeeping.
Что измеряли
Авторы собрали benchmark для code review agents. Агент получает pull request — сгенерированный человеком или другим агентом — и должен создать review. Затем evaluation framework проверяет, обнаружил ли агент проблемы, которые в человеческом review считались значимыми.
Методология
c-CRAB построен из human reviews: для каждого pull request instance авторы генерируют соответствующие tests, которые позволяют оценить agent-generated review. Такой подход превращает человеческое ревью в held-out quality gate для автоматических review agents.
Какие агенты проверяли
В исследовании оцениваются open-source PR-agent, а также commercial code review agents from Devin, Claude Code and Codex. Это делает benchmark практичным: он не ограничивается чистыми LLM, а проверяет реальные agent products или agentic workflows.
Ключевой результат
Существующие review agents together solve only around 40% of c-CRAB tasks. Это означает, что AI code review пока далеко от полного замещения человеческой проверки, особенно когда требуется понять intent PR, качество изменений и скрытые риски.
Human-agent collaboration
Авторы отмечают, что agent reviews часто смотрят на другие аспекты, чем human reviews. Это может быть слабостью, но также открывает перспективу human-agent collaboration: агент может ловить часть технических или тестовых проблем, а человек — оценивать архитектурный intent, maintainability и продуктовый контекст.
Практический вывод
c-CRAB показывает, что автоматизация code review должна внедряться как assistive quality gate, а не как автономная замена reviewer'а. Для AI4SDLC это особенно важно: если AI ускоряет генерацию кода, то review agents должны быть измерены так же строго, как generation agents.