OpenAI5 февраля 2026 г.МирSWE-Bench Pro, Terminal-Bench 2.0, OSWorld-Verified, GDPval

Introducing GPT-5.3-Codex

GPT-5.3-Codex — шаг OpenAI к более сильным agentic coding сценариям с фокусом на benchmark-качество и устойчивость к долгим задачам (источник).

Для практики это важно как точка сравнения по SWE/terminal/computer-use классам задач в одном релизе.

ЭкспериментКейс-стадиОткрыть источник

Срез исследования

5 фактов

56,8%

SWE-Bench Pro

77,3%

Terminal-Bench 2.0

64,7%

OSWorld-Verified

70,9%

GDPval wins/ties

5 февраля 2026

Релиз

Методология

3 блока

Multi-benchmark оценка

Как собирали и структурировали данные

SWEterminalcomputer-useknowledge-work

Модель оценивается сразу на нескольких семействах задач, что снижает риск переоптимизации под один benchmark (источник).

Сравнение с предыдущими моделями

Как собирали и структурировали данные

relative uplift

Позиционирование строится на сравнении с предыдущей линейкой OpenAI в сопоставимых сценариях.

Фокус на agentic workflows

Как собирали и структурировали данные

multi-step tasks

Отдельно учитывается производительность в многошаговых инженерных цепочках, где важны планирование и самокоррекция.

Ключевые результаты

3 вывода

Сильный результат на terminal tasks

Что важно для engineering-практики

77,3% Terminal-Bench 2.0

На terminal-oriented сценариях модель демонстрирует высокий уровень выполнения end-to-end процедур.

Рост на SWE задачах

Что важно для engineering-практики

56,8% SWE-Bench Pro

Результат на SWE-Bench Pro подтверждает усиление в code-repair и task completion классах.

Широкий профиль по eval-классам

Что важно для engineering-практики

64,7% OSWorld70,9% GDPval wins/ties

Комбинация результатов по OSWorld и GDPval показывает конкурентность модели за пределами чистого bug-fix бенчмарка.

Риски и интерпретация

3 акцента

Нужна проверка на production-пайплайне

Как применять выводы в командах

offline != prod

Даже высокие benchmark score требуют валидации в реальных репозиториях, policy constraints и CI-контуре.

Измеряйте full-cycle метрики

Как применять выводы в командах

lead timereworkdefect rate

Для объективной оценки внедрения AI важно смотреть на полный жизненный цикл изменений, а не только на task-pass.

Benchmark mix обязателен

Как применять выводы в командах

portfolio eval approach

Смешанный набор benchmark-ов дает более устойчивую картину, чем один лидирующий показатель.

Практический итог

GPT-5.3-Codex усиливает benchmark-позиции OpenAI в нескольких классах задач одновременно.

Практически это означает: модель стоит оценивать как часть инженерного стека с обязательной проверкой production-метрик и reliability-ограничений.

Подробности из отчетаПоказать

OpenAI позиционирует GPT-5.3-Codex как модель с сильным профилем на coding и agentic workflow benchmark-ах.

Benchmark-срез

56,8% на SWE-Bench Pro.
77,3% на Terminal-Bench 2.0.
64,7% на OSWorld-Verified.
70,9% wins/ties на GDPval.

Что это значит

Модель демонстрирует конкурентный профиль сразу в нескольких классах задач: software repair, terminal execution, computer-use и knowledge-work.

Ограничения интерпретации

Benchmark-результаты не заменяют production-валидацию на собственных репозиториях и policy/quality-контурах.