OpenAI19 ноября 2025 г.МирCodex; оценка на SWE‑bench Verified (n=500), SWE‑Lancer IC SWE и Terminal‑Bench 2.0; внутренние оценки длительных задач

GPT‑5.1‑Codex‑Max: frontier агентная модель для разработки

GPT‑5.1‑Codex‑Max — фронтирная агентная модель OpenAI для программирования в Codex. Она построена на крупном обновлении модели рассуждений и оптимизирована под длительные инженерные задачи, глубокий контекст и токен‑эффективность.

ЭкспериментКейс-стадиОткрыть источник

Методология и данные

1 блок

Обучение на примерах реальных инженерных задач (PR, debugging, code review, фронтенд, Q&A) и сравнение на бенчмарках SWE‑bench Verified, SWE‑Lancer IC SWE и Terminal‑Bench 2.0; оценка эффективности по расходу thinking‑токенов.

ЭкспериментКейс-стади

Ключевые результаты

4 блока

Длинные задачи и compaction

Фрагмент из раздела отчета

Модель умеет работать через несколько окон контекста, используя compaction, что сохраняет ключевую информацию на горизонте миллионов токенов. Это позволяет вести многошаговые агентные циклы и не «терять нить» в очень длинных задачах.

  • Внутренние оценки указывают на устойчивую работу в длительных сессиях.
  • Есть примеры задач, где модель продолжала выполнение более 24 часов.

Скорость и эффективность

Фрагмент из раздела отчета

На SWE‑bench Verified в режиме reasoning effort medium GPT‑5.1‑Codex‑Max показывает более высокую точность, расходуя на 30% меньше thinking‑токенов по сравнению с GPT‑5.1‑Codex. Для задач без жёстких требований к задержке доступен режим Extra High (xhigh).

  • Medium позиционируется как «ежедневный» режим для большинства инженерных задач.
  • Снижение количества thinking‑токенов даёт прямую экономию стоимости.

Frontier‑качества для программирования

Фрагмент из раздела отчета

Модель обучалась на реальных инженерных сценариях: создание PR, поиск и исправление багов, code review, фронтенд‑разработка и ответы на технические вопросы.

  • Улучшена совместная работа с Codex CLI и долгие многошаговые циклы.
  • Это первая модель, обученная работать в Windows‑среде.

Бенчмарки (appendix)

Фрагмент из раздела отчета

  • SWE‑bench Verified (n=500): 77,9% (GPT‑5.1‑Codex‑Max, xhigh) против 73,7% (GPT‑5.1‑Codex, high)
  • SWE‑Lancer IC SWE: 79,9% против 66,3%
  • Terminal‑Bench 2.0: 58,1% против 52,8%
Подробности из отчетаПоказать

GPT‑5.1‑Codex‑Max — фронтирная агентная модель OpenAI для программирования в Codex. Она построена на крупном обновлении модели рассуждений и оптимизирована под длительные инженерные задачи, глубокий контекст и токен‑эффективность.

Длинные задачи и compaction

Модель умеет работать через несколько окон контекста, используя compaction, что сохраняет ключевую информацию на горизонте миллионов токенов. Это позволяет вести многошаговые агентные циклы и не «терять нить» в очень длинных задачах.

  • Внутренние оценки указывают на устойчивую работу в длительных сессиях.
  • Есть примеры задач, где модель продолжала выполнение более 24 часов.

Скорость и эффективность

На SWE‑bench Verified в режиме reasoning effort medium GPT‑5.1‑Codex‑Max показывает более высокую точность, расходуя на 30% меньше thinking‑токенов по сравнению с GPT‑5.1‑Codex. Для задач без жёстких требований к задержке доступен режим Extra High (xhigh).

  • Medium позиционируется как «ежедневный» режим для большинства инженерных задач.
  • Снижение количества thinking‑токенов даёт прямую экономию стоимости.

Frontier‑качества для программирования

Модель обучалась на реальных инженерных сценариях: создание PR, поиск и исправление багов, code review, фронтенд‑разработка и ответы на технические вопросы.

  • Улучшена совместная работа с Codex CLI и долгие многошаговые циклы.
  • Это первая модель, обученная работать в Windows‑среде.

Бенчмарки (appendix)

  • SWE‑bench Verified (n=500): 77,9% (GPT‑5.1‑Codex‑Max, xhigh) против 73,7% (GPT‑5.1‑Codex, high)
  • SWE‑Lancer IC SWE: 79,9% против 66,3%
  • Terminal‑Bench 2.0: 58,1% против 52,8%

Доступность

GPT‑5.1‑Codex‑Max доступна в Codex для планов ChatGPT Plus/Pro/Business/Edu/Enterprise; доступ через API заявлен «скоро». Модель заменяет GPT‑5.1‑Codex как вариант по умолчанию в Codex и рекомендована для агентных задач разработки.

Внутреннее использование

OpenAI сообщает, что 95% инженеров используют Codex еженедельно, а число PR на инженера выросло примерно на 70% после внедрения.