A Benchmark for Evaluating Repository-Level Code Agents with Intermediate Reasoning on Feature Addition Task
RACE-bench оценивает repository-level code agents на feature addition tasks и добавляет важный слой: проверку intermediate reasoning, а не только финального patch correctness. Это полезно для понимания, где именно агент “понимает задачу”, но ломается при переводе intent в конкретные implementation steps.
Методология и данные
1 блокДвухтрековая система оценки, одновременно измеряющая корректность patch и качество промежуточных рассуждений по этапам: понимание issue, локализация файлов, задачи реализации и декомпозиция шагов.
Ключевые результаты
4 блокаЧто измеряли
Фрагмент из раздела отчета
Benchmark содержит 528 real-world feature addition instances из 12 open-source repositories. Каждая задача сопровождается executable patch verification и structured intermediate reasoning ground truth: issue understanding, file localization, implementation tasks и step decomposition.
Методология
Фрагмент из раздела отчета
RACE-bench использует dual-track evaluation framework. Первый трек оценивает patch correctness — проходит ли решение проверку. Второй трек оценивает reasoning quality: насколько правильно агент понял issue, нашёл нужные файлы, разложил работу на steps и перевёл high-level intent в implementation tasks.
Результаты агентов
Фрагмент из раздела отчета
Авторы проверили три representative repository-level code agents. На полном benchmark resolved rates варьируются от 29% до 70%, что показывает большой разброс между agent designs. Но финальный pass/fail не объясняет всю картину: reasoning-level анализ показывает, где возникают ошибки до падения тестов.
Где ломается reasoning
Фрагмент из раздела отчета
Агенты неплохо понимают high-level intent, но performance заметно падает при переходе к concrete implementation steps. Для apply-success-but-test-fail cases reasoning recall оказался на 35,7% ниже, а over-prediction — на 94,1% выше по сравнению с успешными случаями. Это указывает на систематическую проблему: агент может внести патч, но неверно спланировать или переоценить нужный объём изменений.
Подробности из отчетаПоказатьСкрыть
RACE-bench оценивает repository-level code agents на feature addition tasks и добавляет важный слой: проверку intermediate reasoning, а не только финального patch correctness. Это полезно для понимания, где именно агент “понимает задачу”, но ломается при переводе intent в конкретные implementation steps.
Что измеряли
Benchmark содержит 528 real-world feature addition instances из 12 open-source repositories. Каждая задача сопровождается executable patch verification и structured intermediate reasoning ground truth: issue understanding, file localization, implementation tasks и step decomposition.
Методология
RACE-bench использует dual-track evaluation framework. Первый трек оценивает patch correctness — проходит ли решение проверку. Второй трек оценивает reasoning quality: насколько правильно агент понял issue, нашёл нужные файлы, разложил работу на steps и перевёл high-level intent в implementation tasks.
Результаты агентов
Авторы проверили три representative repository-level code agents. На полном benchmark resolved rates варьируются от 29% до 70%, что показывает большой разброс между agent designs. Но финальный pass/fail не объясняет всю картину: reasoning-level анализ показывает, где возникают ошибки до падения тестов.
Где ломается reasoning
Агенты неплохо понимают high-level intent, но performance заметно падает при переходе к concrete implementation steps. Для apply-success-but-test-fail cases reasoning recall оказался на 35,7% ниже, а over-prediction — на 94,1% выше по сравнению с успешными случаями. Это указывает на систематическую проблему: агент может внести патч, но неверно спланировать или переоценить нужный объём изменений.
Практический вывод
RACE-bench показывает, что оценка repo-level agents должна включать reasoning trace quality. Для команд это означает: useful observability должна отвечать не только “почему тесты упали”, но и “на каком этапе reasoning агент свернул не туда”.