research authors

5 февраля 2026 г.Мир1,136 issue-resolution tasks, 66 repositories, 8 languages

ContextBench: A Benchmark for Context Retrieval in Coding Agents

ContextBench измеряет ключевой компонент coding-агентов — качество извлечения и использования контекста в репозитории (источник).

Работа показывает, что gap между «найденным контекстом» и «полезным для решения контекстом» остается большим.

ЭкспериментСтатистикаОткрыть источник

Срез исследования

5 фактов

1 136

Issue-resolution задач

Репозиториев

Языков

Gold-context annotations

Метод

5 февраля 2026

Дата

Методология

3 блока

Process-oriented benchmark

Как собирали и структурировали данные

retrieval process focus

ContextBench оценивает не только конечный ответ, но и промежуточный процесс поиска релевантного контекста.

Gold-context разметка

Как собирали и структурировали данные

annotated reference context

Наличие эталонной разметки позволяет сравнивать, насколько полно и точно агент извлекает нужные фрагменты репозитория.

Кросс-языковая проверка

Как собирали и структурировали данные

8 languages66 repos

Широкая выборка по языкам и проектам снижает риск узкой оптимизации под один тип кода.

Ключевые результаты

3 вывода

Retrieval остается bottleneck

Что важно для engineering-практики

large context gap

Даже сильные агенты часто не извлекают критичные контекстные элементы, необходимые для успешного решения задачи.

Scaffold-прирост ограничен

Что важно для engineering-практики

incremental gains

Дополнительные scaffold-подходы улучшают результаты умеренно и не закрывают системный разрыв в retrieval quality.

Найти != использовать

Что важно для engineering-практики

utilization gap

Даже найденный контекст не всегда правильно применяется в цепочке решения, что снижает итоговый task success.

Риски и интерпретация

3 акцента

Усиливайте retrieval stack

Как применять выводы в командах

indexing + ranking

Для production-агентов приоритетом становятся качество индексации, ранжирования и relevance контроля контекста.

Нужна трассировка reasoning

Как применять выводы в командах

context usage observability

Полезно отслеживать, какой контекст агент использовал фактически, чтобы локализовать причины ошибок.

Инвестируйте в repo-grounding

Как применять выводы в командах

grounded answers

Устойчивый эффект достигается там, где агент системно привязан к структуре и артефактам конкретного репозитория.

Практический итог

ContextBench показывает, что retrieval/grounding остаются ключевым ограничением coding-агентов.

Практический вывод: улучшение качества контекстного поиска может дать больший прирост, чем локальная донастройка генерации.

Подробности из отчетаПоказать

ContextBench оценивает retrieval-качество coding-агентов в repository-контексте.

Набор

1 136 issue-resolution задач
66 репозиториев
8 языков

Метод

Process-oriented benchmark с gold-context разметкой.

Вывод

Сохраняется большой разрыв между найденным и реально использованным контекстом; scaffold-подходы улучшают результат ограниченно.

Практический вывод

Для повышения полезности агентов приоритетны retrieval quality, repo grounding и наблюдаемость использования контекста.