FeatureBench: Benchmarking Agentic Coding for Complex Feature Development
FeatureBench переносит оценку coding-агентов на сложные feature-level задачи в полноценном repository контексте (источник).
Работа показывает разрыв между высокими bug-fix leaderboard score и реальным успехом в разработке сложных фич.
Срез исследования
5 фактовМетодология
3 блокаFeature-development benchmark
Как собирали и структурировали данные
Benchmark концентрируется на разработке функций, а не только на локальных исправлениях, что ближе к реальной продуктовой разработке.
Execution-based проверка
Как собирали и структурировали данные
Валидация через исполняемые окружения помогает проверять end-to-end корректность результата в условиях, близких к production.
Repository realism
Как собирали и структурировали данные
Работа на уровне реальных репозиториев подчеркивает роль архитектурного и контекстного понимания в успехе агента.
Ключевые результаты
3 выводаБольшой gap к feature-level задачам
Что важно для engineering-практики
Даже при сильных показателях на традиционных benchmark-ах общий success на сложных feature-кейсах остается низким.
Bug-fix метрики недостаточны
Что важно для engineering-практики
Высокий score на bug-fix тестах не гарантирует сопоставимую продуктивность на задачах продуктового масштаба.
Контекст и планирование критичны
Что важно для engineering-практики
Слабые места агентов проявляются на многошаговых изменениях с зависимостями между модулями и тестовым контуром.
Риски и интерпретация
3 акцентаОценка должна быть feature-oriented
Как применять выводы в командах
Для выбора агента в продуктовой команде полезно включать eval-задачи, похожие на реальные feature-request работы.
Сохраняйте инженерный контроль
Как применять выводы в командах
Низкий success rate указывает на необходимость декомпозиции задач и активного участия инженера в цикле изменений.
Считайте полную стоимость
Как применять выводы в командах
Важны не только завершенные задачи, но и затраты на исправления, дополнительные итерации и сопровождение.
Практический итог
FeatureBench подтверждает, что между benchmark-успехом и реальной feature-разработкой сохраняется существенный разрыв.
Практический вывод: eval-процессы команд нужно приближать к multi-step feature сценариям, а не ограничивать bug-fix тестами.
Подробности из отчетаПоказатьСкрыть
FeatureBench оценивает agentic coding на сложных feature-level задачах.
Дизайн
- 200 feature-level задач
- 3 825 исполняемых окружений
- 24 репозитория
Ключевой результат
- Лидирующие агенты показывают около 11% success на сложных feature-задачах.
Интерпретация
- High score на bug-fix benchmark-ах не переносится напрямую на feature-development сценарии.
Практический вывод
Командам стоит проверять модели в собственных multi-step feature кейсах перед широким внедрением.