research authors

2 февраля 2026 г.Мир1,794 tasks, 3 languages, 4 task categories

OmniCode: A Benchmark for Evaluating Software Engineering Agents

OmniCode расширяет покрытие benchmark-оценки software engineering агентов по языкам и типам задач, включая leakage-aware дизайн (источник).

Работа полезна как проверка того, насколько агенты устойчивы вне привычных Python bug-fix сценариев.

ЭкспериментКейс-стадиОткрыть источник

Срез исследования

5 фактов

1 794

Задач

Языков

Категорий задач

Manually validated + leakage-aware

Метод

2 февраля 2026

Дата

Методология

3 блока

Широкое task-покрытие

Как собирали и структурировали данные

1,794 tasks

OmniCode включает большую и разнородную выборку задач, что снижает риск переобучения выводов под один сценарий.

Leakage-aware конструкция

Как собирали и структурировали данные

contamination controls

Авторы учитывают риск утечек train/eval и делают акцент на более устойчивом измерении агентных возможностей.

Multi-language анализ

Как собирали и структурировали данные

3 languages

Кросс-языковая структура помогает увидеть, где модели теряют качество вне наиболее частотного для них контекста.

Ключевые результаты

3 вывода

Сильная неоднородность качества

Что важно для engineering-практики

4 task categories

Результаты заметно зависят от типа задачи, что указывает на ограниченную универсальность текущих agentic подходов.

Провалы вне Python-centric зон

Что важно для engineering-практики

cross-language gaps

На ряде задач вне привычных bug-fix кейсов агенты демонстрируют ощутимое падение эффективности.

Нужна более реалистичная оценка

Что важно для engineering-практики

benchmark robustness

OmniCode поддерживает идею портфеля benchmark-ов, где важны не только пиковые score, но и устойчивость по сценариям.

Риски и интерпретация

3 акцента

Не полагаться на один benchmark

Как применять выводы в командах

evaluation portfolio

Выбор модели должен включать разнообразные task-family проверки, особенно если стек проекта многоязычный.

Оценивать domain transfer

Как применять выводы в командах

generalization check

Практически важно тестировать переносимость модели между репозиториями и языками, а не только внутри одного домена.

Контролировать leakage risk

Как применять выводы в командах

clean eval pipeline

Организациям полезно строить внутренний eval так, чтобы минимизировать риск контаминации и ложного оптимизма.

Практический итог

OmniCode показывает, что качество агентных систем сильно зависит от типа задачи и языка, даже при высоких результатах на отдельных benchmark-ах.

Практический вывод: для продакшн-решений нужен более широкий и leakage-aware eval-контур.

Подробности из отчетаПоказать

OmniCode предлагает широкую leakage-aware оценку software engineering агентов.

Набор

1 794 задачи
3 языка
4 категории задач

Метод

Manually validated benchmark-конструкция с учетом contamination/leakage рисков.

Вывод

Отмечаются заметные провалы агентов вне Python-centric bug-fix сценариев.

Практический вывод

Командам стоит оценивать модели по портфелю задач и языков, а не по узкому benchmark-результату.