research authors
11 февраля 2026 г.Мир200 feature-level tasks, 3,825 executable environments, 24 repositories

FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

FeatureBench переносит оценку coding-агентов на сложные feature-level задачи в полноценном repository контексте (источник).

Работа показывает разрыв между высокими bug-fix leaderboard score и реальным успехом в разработке сложных фич.

ЭкспериментКейс-стадиОткрыть источник

Срез исследования

5 фактов
200
Feature-level задач
3 825
Executable environments
24
Репозиториев
~11%
Ориентир успеха лидеров
11 февраля 2026
Дата

Методология

3 блока

Feature-development benchmark

Как собирали и структурировали данные

200 complex tasks

Benchmark концентрируется на разработке функций, а не только на локальных исправлениях, что ближе к реальной продуктовой разработке.

Execution-based проверка

Как собирали и структурировали данные

3,825 environments

Валидация через исполняемые окружения помогает проверять end-to-end корректность результата в условиях, близких к production.

Repository realism

Как собирали и структурировали данные

24 repositories

Работа на уровне реальных репозиториев подчеркивает роль архитектурного и контекстного понимания в успехе агента.

Ключевые результаты

3 вывода

Большой gap к feature-level задачам

Что важно для engineering-практики

~11% success

Даже при сильных показателях на традиционных benchmark-ах общий success на сложных feature-кейсах остается низким.

Bug-fix метрики недостаточны

Что важно для engineering-практики

leaderboard mismatch

Высокий score на bug-fix тестах не гарантирует сопоставимую продуктивность на задачах продуктового масштаба.

Контекст и планирование критичны

Что важно для engineering-практики

long-horizon reasoning

Слабые места агентов проявляются на многошаговых изменениях с зависимостями между модулями и тестовым контуром.

Риски и интерпретация

3 акцента

Оценка должна быть feature-oriented

Как применять выводы в командах

real product tasks

Для выбора агента в продуктовой команде полезно включать eval-задачи, похожие на реальные feature-request работы.

Сохраняйте инженерный контроль

Как применять выводы в командах

review + decomposition

Низкий success rate указывает на необходимость декомпозиции задач и активного участия инженера в цикле изменений.

Считайте полную стоимость

Как применять выводы в командах

rework-aware KPI

Важны не только завершенные задачи, но и затраты на исправления, дополнительные итерации и сопровождение.

Практический итог

FeatureBench подтверждает, что между benchmark-успехом и реальной feature-разработкой сохраняется существенный разрыв.

Практический вывод: eval-процессы команд нужно приближать к multi-step feature сценариям, а не ограничивать bug-fix тестами.

Подробности из отчетаПоказать

FeatureBench оценивает agentic coding на сложных feature-level задачах.

Дизайн

  • 200 feature-level задач
  • 3 825 исполняемых окружений
  • 24 репозитория

Ключевой результат

  • Лидирующие агенты показывают около 11% success на сложных feature-задачах.

Интерпретация

  • High score на bug-fix benchmark-ах не переносится напрямую на feature-development сценарии.

Практический вывод

Командам стоит проверять модели в собственных multi-step feature кейсах перед широким внедрением.