OpenAI19 ноября 2025 г.МирCodex; оценка на SWE‑bench Verified (n=500), SWE‑Lancer IC SWE и Terminal‑Bench 2.0; внутренние оценки длительных задач

GPT‑5.1‑Codex‑Max: frontier агентная модель для разработки

GPT‑5.1‑Codex‑Max — фронтирная агентная модель OpenAI для программирования в Codex. Она построена на крупном обновлении модели рассуждений и оптимизирована под длительные инженерные задачи, глубокий контекст и токен‑эффективность.

ЭкспериментКейс-стадиОткрыть источник

Методология и данные

1 блок

Обучение на примерах реальных инженерных задач (PR, debugging, code review, фронтенд, Q&A) и сравнение на бенчмарках SWE‑bench Verified, SWE‑Lancer IC SWE и Terminal‑Bench 2.0; оценка эффективности по расходу thinking‑токенов.

ЭкспериментКейс-стади

Ключевые результаты

4 блока

Длинные задачи и compaction

Фрагмент из раздела отчета

Модель умеет работать через несколько окон контекста, используя compaction, что сохраняет ключевую информацию на горизонте миллионов токенов. Это позволяет вести многошаговые агентные циклы и не «терять нить» в очень длинных задачах.

Внутренние оценки указывают на устойчивую работу в длительных сессиях.
Есть примеры задач, где модель продолжала выполнение более 24 часов.

Скорость и эффективность

Фрагмент из раздела отчета

На SWE‑bench Verified в режиме reasoning effort medium GPT‑5.1‑Codex‑Max показывает более высокую точность, расходуя на 30% меньше thinking‑токенов по сравнению с GPT‑5.1‑Codex. Для задач без жёстких требований к задержке доступен режим Extra High (xhigh).

Medium позиционируется как «ежедневный» режим для большинства инженерных задач.
Снижение количества thinking‑токенов даёт прямую экономию стоимости.

Frontier‑качества для программирования

Фрагмент из раздела отчета

Модель обучалась на реальных инженерных сценариях: создание PR, поиск и исправление багов, code review, фронтенд‑разработка и ответы на технические вопросы.

Улучшена совместная работа с Codex CLI и долгие многошаговые циклы.
Это первая модель, обученная работать в Windows‑среде.

Бенчмарки (appendix)

Фрагмент из раздела отчета

SWE‑bench Verified (n=500): 77,9% (GPT‑5.1‑Codex‑Max, xhigh) против 73,7% (GPT‑5.1‑Codex, high)
SWE‑Lancer IC SWE: 79,9% против 66,3%
Terminal‑Bench 2.0: 58,1% против 52,8%

Подробности из отчетаПоказать

Длинные задачи и compaction

Внутренние оценки указывают на устойчивую работу в длительных сессиях.
Есть примеры задач, где модель продолжала выполнение более 24 часов.

Скорость и эффективность

Medium позиционируется как «ежедневный» режим для большинства инженерных задач.
Снижение количества thinking‑токенов даёт прямую экономию стоимости.

Frontier‑качества для программирования

Улучшена совместная работа с Codex CLI и долгие многошаговые циклы.
Это первая модель, обученная работать в Windows‑среде.

Бенчмарки (appendix)

SWE‑bench Verified (n=500): 77,9% (GPT‑5.1‑Codex‑Max, xhigh) против 73,7% (GPT‑5.1‑Codex, high)
SWE‑Lancer IC SWE: 79,9% против 66,3%
Terminal‑Bench 2.0: 58,1% против 52,8%

Доступность

GPT‑5.1‑Codex‑Max доступна в Codex для планов ChatGPT Plus/Pro/Business/Edu/Enterprise; доступ через API заявлен «скоро». Модель заменяет GPT‑5.1‑Codex как вариант по умолчанию в Codex и рекомендована для агентных задач разработки.

Внутреннее использование

OpenAI сообщает, что 95% инженеров используют Codex еженедельно, а число PR на инженера выросло примерно на 70% после внедрения.