ContextBench: A Benchmark for Context Retrieval in Coding Agents
ContextBench измеряет ключевой компонент coding-агентов — качество извлечения и использования контекста в репозитории (источник).
Работа показывает, что gap между «найденным контекстом» и «полезным для решения контекстом» остается большим.
Срез исследования
5 фактовМетодология
3 блокаProcess-oriented benchmark
Как собирали и структурировали данные
ContextBench оценивает не только конечный ответ, но и промежуточный процесс поиска релевантного контекста.
Gold-context разметка
Как собирали и структурировали данные
Наличие эталонной разметки позволяет сравнивать, насколько полно и точно агент извлекает нужные фрагменты репозитория.
Кросс-языковая проверка
Как собирали и структурировали данные
Широкая выборка по языкам и проектам снижает риск узкой оптимизации под один тип кода.
Ключевые результаты
3 выводаRetrieval остается bottleneck
Что важно для engineering-практики
Даже сильные агенты часто не извлекают критичные контекстные элементы, необходимые для успешного решения задачи.
Scaffold-прирост ограничен
Что важно для engineering-практики
Дополнительные scaffold-подходы улучшают результаты умеренно и не закрывают системный разрыв в retrieval quality.
Найти != использовать
Что важно для engineering-практики
Даже найденный контекст не всегда правильно применяется в цепочке решения, что снижает итоговый task success.
Риски и интерпретация
3 акцентаУсиливайте retrieval stack
Как применять выводы в командах
Для production-агентов приоритетом становятся качество индексации, ранжирования и relevance контроля контекста.
Нужна трассировка reasoning
Как применять выводы в командах
Полезно отслеживать, какой контекст агент использовал фактически, чтобы локализовать причины ошибок.
Инвестируйте в repo-grounding
Как применять выводы в командах
Устойчивый эффект достигается там, где агент системно привязан к структуре и артефактам конкретного репозитория.
Практический итог
ContextBench показывает, что retrieval/grounding остаются ключевым ограничением coding-агентов.
Практический вывод: улучшение качества контекстного поиска может дать больший прирост, чем локальная донастройка генерации.
Подробности из отчетаПоказатьСкрыть
ContextBench оценивает retrieval-качество coding-агентов в repository-контексте.
Набор
- 1 136 issue-resolution задач
- 66 репозиториев
- 8 языков
Метод
- Process-oriented benchmark с gold-context разметкой.
Вывод
- Сохраняется большой разрыв между найденным и реально использованным контекстом; scaffold-подходы улучшают результат ограниченно.
Практический вывод
Для повышения полезности агентов приоритетны retrieval quality, repo grounding и наблюдаемость использования контекста.