Mercor / research authors
13 января 2026 г.Мир200 tasks (100 integration + 100 observability)

APEX-SWE

APEX-SWE предлагает execution-бенчмарк для экономически значимых инженерных задач, разделенных на интеграционные и observability-сценарии (источник).

Это важный сдвиг от простых bug-fix кейсов к задачам, более близким к реальному инженерному контуру.

ЭкспериментКейс-стадиОткрыть источник

Срез исследования

5 фактов
200
Всего задач
100
Integration tasks
100
Observability tasks
38,5%
Top Pass@1
13 января 2026
Публикация

Методология

3 блока

Execution-first benchmark

Как собирали и структурировали данные

integration + observability

APEX-SWE строит проверку вокруг исполняемых задач, где критично end-to-end поведение решения, а не только текст патча.

Экономически значимые сценарии

Как собирали и структурировали данные

practical SWE tasks

Набор задач ориентирован на ситуации, которые чаще встречаются в промышленной разработке и влияют на стоимость delivery.

Pass@1 как базовая метрика

Как собирали и структурировали данные

Top Pass@1 38,5%

Даже лучшие модели показывают ограниченный успех на первом проходе, что подчеркивает сложность класса задач.

Ключевые результаты

3 вывода

Сложность выше, чем в bug-fix наборах

Что важно для engineering-практики

200 complex tasks

Интеграционные и observability кейсы выявляют более выраженные ограничения агентных систем по сравнению с привычными benchmark-ами.

Top Pass@1 остается умеренным

Что важно для engineering-практики

38,5%

Уровень успеха на первом запуске указывает, что значимая часть задач требует дополнительных итераций и контроля человеком.

Роль инфраструктурного контекста

Что важно для engineering-практики

systems context matters

Результаты чувствительны к тому, насколько хорошо агент умеет работать с окружением и сервисными ограничениями проекта.

Риски и интерпретация

3 акцента

Нужны benchmark-ы нового класса

Как применять выводы в командах

beyond toy bugfix

Для принятия архитектурных решений лучше использовать eval-наборы с интеграционными и эксплуатационными задачами.

Human oversight сохраняется

Как применять выводы в командах

review + iteration

При текущем уровне Pass@1 критично оставлять цикл инженерной проверки и контролировать качество изменений.

Оценка должна учитывать стоимость

Как применять выводы в командах

total cost of change

Практический эффект модели нужно считать с учетом времени на rework, debugging и сопровождение результата.

Практический итог

APEX-SWE демонстрирует более строгий и прикладной взгляд на оценку coding-агентов через execution-oriented задачи.

Практически это означает, что зрелые команды должны дополнять классические benchmark-ы интеграционными eval-сценариями.

Подробности из отчетаПоказать

APEX-SWE — execution-бенчмарк для более реалистичных задач software engineering.

Состав набора

  • 200 задач: 100 integration + 100 observability.

Что измеряют

  • Выполнение задач в исполняемом контуре, где важны системные взаимодействия и корректная интеграция.

Ключевой результат

  • Top reported Pass@1 = 38,5%.

Практический вывод

APEX-SWE показывает, что для production-полезности coding-агентов критичны eval-наборы с высокой инфраструктурной и интеграционной сложностью.