Авторы исследования
7 апреля 2026 г.МирBenchmark c-CRAB для оценки агентов код-ревью на задачах ревью pull request

Code Review Agent Benchmark

Code Review Agent Benchmark (c-CRAB) проверяет, насколько AI-агенты готовы не только писать код, но и ревьюить pull requests. Это важный сдвиг: если AI начинает генерировать всё больше кода, то bottleneck качества переезжает в review, validation и gatekeeping.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Датасет, систематически собранный из ревью людей; ревью, сгенерированные агентами, проверяются тестами, порождёнными из человеческих ревью.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Авторы собрали benchmark для code review agents. Агент получает pull request — сгенерированный человеком или другим агентом — и должен создать review. Затем evaluation framework проверяет, обнаружил ли агент проблемы, которые в человеческом review считались значимыми.

Методология

Фрагмент из раздела отчета

c-CRAB построен из human reviews: для каждого pull request instance авторы генерируют соответствующие tests, которые позволяют оценить agent-generated review. Такой подход превращает человеческое ревью в held-out quality gate для автоматических review agents.

Какие агенты проверяли

Фрагмент из раздела отчета

В исследовании оцениваются open-source PR-agent, а также commercial code review agents from Devin, Claude Code and Codex. Это делает benchmark практичным: он не ограничивается чистыми LLM, а проверяет реальные agent products или agentic workflows.

Ключевой результат

Фрагмент из раздела отчета

Существующие review agents together solve only around 40% of c-CRAB tasks. Это означает, что AI code review пока далеко от полного замещения человеческой проверки, особенно когда требуется понять intent PR, качество изменений и скрытые риски.

Подробности из отчетаПоказать

Code Review Agent Benchmark (c-CRAB) проверяет, насколько AI-агенты готовы не только писать код, но и ревьюить pull requests. Это важный сдвиг: если AI начинает генерировать всё больше кода, то bottleneck качества переезжает в review, validation и gatekeeping.

Что измеряли

Авторы собрали benchmark для code review agents. Агент получает pull request — сгенерированный человеком или другим агентом — и должен создать review. Затем evaluation framework проверяет, обнаружил ли агент проблемы, которые в человеческом review считались значимыми.

Методология

c-CRAB построен из human reviews: для каждого pull request instance авторы генерируют соответствующие tests, которые позволяют оценить agent-generated review. Такой подход превращает человеческое ревью в held-out quality gate для автоматических review agents.

Какие агенты проверяли

В исследовании оцениваются open-source PR-agent, а также commercial code review agents from Devin, Claude Code and Codex. Это делает benchmark практичным: он не ограничивается чистыми LLM, а проверяет реальные agent products или agentic workflows.

Ключевой результат

Существующие review agents together solve only around 40% of c-CRAB tasks. Это означает, что AI code review пока далеко от полного замещения человеческой проверки, особенно когда требуется понять intent PR, качество изменений и скрытые риски.

Human-agent collaboration

Авторы отмечают, что agent reviews часто смотрят на другие аспекты, чем human reviews. Это может быть слабостью, но также открывает перспективу human-agent collaboration: агент может ловить часть технических или тестовых проблем, а человек — оценивать архитектурный intent, maintainability и продуктовый контекст.

Практический вывод

c-CRAB показывает, что автоматизация code review должна внедряться как assistive quality gate, а не как автономная замена reviewer'а. Для AI4SDLC это особенно важно: если AI ускоряет генерацию кода, то review agents должны быть измерены так же строго, как generation agents.