Авторы исследования
27 марта 2026 г.Мир528 реальных задач на добавление фич из 12 open-source репозиториев с исполняемой проверкой patch и структурированным эталоном промежуточных рассуждений

A Benchmark for Evaluating Repository-Level Code Agents with Intermediate Reasoning on Feature Addition Task

RACE-bench оценивает repository-level code agents на feature addition tasks и добавляет важный слой: проверку intermediate reasoning, а не только финального patch correctness. Это полезно для понимания, где именно агент “понимает задачу”, но ломается при переводе intent в конкретные implementation steps.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Двухтрековая система оценки, одновременно измеряющая корректность patch и качество промежуточных рассуждений по этапам: понимание issue, локализация файлов, задачи реализации и декомпозиция шагов.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Benchmark содержит 528 real-world feature addition instances из 12 open-source repositories. Каждая задача сопровождается executable patch verification и structured intermediate reasoning ground truth: issue understanding, file localization, implementation tasks и step decomposition.

Методология

Фрагмент из раздела отчета

RACE-bench использует dual-track evaluation framework. Первый трек оценивает patch correctness — проходит ли решение проверку. Второй трек оценивает reasoning quality: насколько правильно агент понял issue, нашёл нужные файлы, разложил работу на steps и перевёл high-level intent в implementation tasks.

Результаты агентов

Фрагмент из раздела отчета

Авторы проверили три representative repository-level code agents. На полном benchmark resolved rates варьируются от 29% до 70%, что показывает большой разброс между agent designs. Но финальный pass/fail не объясняет всю картину: reasoning-level анализ показывает, где возникают ошибки до падения тестов.

Где ломается reasoning

Фрагмент из раздела отчета

Агенты неплохо понимают high-level intent, но performance заметно падает при переходе к concrete implementation steps. Для apply-success-but-test-fail cases reasoning recall оказался на 35,7% ниже, а over-prediction — на 94,1% выше по сравнению с успешными случаями. Это указывает на систематическую проблему: агент может внести патч, но неверно спланировать или переоценить нужный объём изменений.

Подробности из отчетаПоказать

RACE-bench оценивает repository-level code agents на feature addition tasks и добавляет важный слой: проверку intermediate reasoning, а не только финального patch correctness. Это полезно для понимания, где именно агент “понимает задачу”, но ломается при переводе intent в конкретные implementation steps.

Что измеряли

Benchmark содержит 528 real-world feature addition instances из 12 open-source repositories. Каждая задача сопровождается executable patch verification и structured intermediate reasoning ground truth: issue understanding, file localization, implementation tasks и step decomposition.

Методология

RACE-bench использует dual-track evaluation framework. Первый трек оценивает patch correctness — проходит ли решение проверку. Второй трек оценивает reasoning quality: насколько правильно агент понял issue, нашёл нужные файлы, разложил работу на steps и перевёл high-level intent в implementation tasks.

Результаты агентов

Авторы проверили три representative repository-level code agents. На полном benchmark resolved rates варьируются от 29% до 70%, что показывает большой разброс между agent designs. Но финальный pass/fail не объясняет всю картину: reasoning-level анализ показывает, где возникают ошибки до падения тестов.

Где ломается reasoning

Агенты неплохо понимают high-level intent, но performance заметно падает при переходе к concrete implementation steps. Для apply-success-but-test-fail cases reasoning recall оказался на 35,7% ниже, а over-prediction — на 94,1% выше по сравнению с успешными случаями. Это указывает на систематическую проблему: агент может внести патч, но неверно спланировать или переоценить нужный объём изменений.

Практический вывод

RACE-bench показывает, что оценка repo-level agents должна включать reasoning trace quality. Для команд это означает: useful observability должна отвечать не только “почему тесты упали”, но и “на каком этапе reasoning агент свернул не туда”.