OpenAI23 февраля 2026 г.МирAudit of 138 hard SWE-bench Verified tasks

Why SWE-bench Verified no longer measures frontier coding capabilities

В заметке OpenAI о SWE-bench Verified limitations основной фокус смещается с «роста score» к валидности самой метрики (источник).

Ключевой инженерный вывод: benchmark-pass не всегда эквивалентен production-ready изменению.

ЭкспериментСтатистикаКейс-стадиОткрыть источник

Срез исследования

5 фактов
138
Аудит сложных задач
59,4%
Материальные test/design issues
benchmark contamination
Основной риск
метрическая валидность
Фокус заметки
23 февраля 2026
Дата

Методология

3 блока

Экспертный аудит задач

Как собирали и структурировали данные

138 hard tasks

OpenAI пересматривает подмножество сложных задач SWE-bench Verified на предмет постановки и качества oracle-тестов.

Анализ contamination

Как собирали и структурировали данные

train/eval leakage risk

Отдельно оценивается влияние утечки benchmark-паттернов в обучающие и инструментальные контуры моделей.

Сопоставление с frontier behavior

Как собирали и структурировали данные

score inflation checks

Высокие результаты интерпретируются через призму артефактов benchmark-а, а не только как реальный рост агентных возможностей.

Ключевые результаты

3 вывода

Проблемы валидности заметны

Что важно для engineering-практики

59,4% issues on audited set

На существенной доле аудированных задач обнаружены проблемы, способные искажать сравнительные выводы о моделях.

Contamination искажает прогресс

Что важно для engineering-практики

benchmark signal drift

По мере роста frontier-моделей benchmark может хуже различать реальные capability differences и «натренированность на формат».

Нужен портфель eval-ов

Что важно для engineering-практики

single benchmark is insufficient

Оценка coding-моделей должна включать несколько независимых benchmark-ов и более production-like сценарии.

Риски и интерпретация

3 акцента

Score не равен mergeability

Как применять выводы в командах

benchmark != production

Для команд важно различать «пройденный тест» и изменение, которое реально можно безопасно влить в основную ветку.

Нужны human+policy проверки

Как применять выводы в командах

review + security + maintainability

Даже при высоком pass rate необходимы инженерные ревью, security checks и оценка поддерживаемости патча.

Ориентация на real-world evals

Как применять выводы в командах

repo-level tasks

При выборе модели приоритет стоит отдавать eval-пакетам, ближе к реальным repository-level и maintenance сценариям.

Практический итог

Эта публикация OpenAI важна как «мета-исследование» качества benchmarking-практик: она предупреждает о риске переоценки capability по одному benchmark-числу.

Практический вывод: для выбора coding-модели нужен портфель метрик и production-подобные проверки, а не только leaderboard-позиция.

Подробности из отчетаПоказать

Заметка OpenAI о SWE-bench Verified limitations концентрируется на надежности benchmark-сигнала для frontier coding моделей.

Что проверяли

  • Аудит 138 сложных задач SWE-bench Verified.
  • Анализ влияния contamination и качества test/design постановки.

Что нашли

  • В 59,4% аудированной подвыборки обнаружены material issues, влияющие на корректность интерпретации score.
  • По мере роста качества моделей один benchmark хуже различает реальные capability differences.

Практическая интерпретация

Для оценки coding-моделей нужен портфель независимых eval-ов и production-like проверок, а не reliance на одно leaderboard-число.