GPT‑5.1‑Codex‑Max: frontier агентная модель для разработки
GPT‑5.1‑Codex‑Max — фронтирная агентная модель OpenAI для программирования в Codex. Она построена на крупном обновлении модели рассуждений и оптимизирована под длительные инженерные задачи, глубокий контекст и токен‑эффективность.
Методология и данные
1 блокОбучение на примерах реальных инженерных задач (PR, debugging, code review, фронтенд, Q&A) и сравнение на бенчмарках SWE‑bench Verified, SWE‑Lancer IC SWE и Terminal‑Bench 2.0; оценка эффективности по расходу thinking‑токенов.
Ключевые результаты
4 блокаДлинные задачи и compaction
Фрагмент из раздела отчета
Модель умеет работать через несколько окон контекста, используя compaction, что сохраняет ключевую информацию на горизонте миллионов токенов. Это позволяет вести многошаговые агентные циклы и не «терять нить» в очень длинных задачах.
- Внутренние оценки указывают на устойчивую работу в длительных сессиях.
- Есть примеры задач, где модель продолжала выполнение более 24 часов.
Скорость и эффективность
Фрагмент из раздела отчета
На SWE‑bench Verified в режиме reasoning effort medium GPT‑5.1‑Codex‑Max показывает более высокую точность, расходуя на 30% меньше thinking‑токенов по сравнению с GPT‑5.1‑Codex. Для задач без жёстких требований к задержке доступен режим Extra High (xhigh).
- Medium позиционируется как «ежедневный» режим для большинства инженерных задач.
- Снижение количества thinking‑токенов даёт прямую экономию стоимости.
Frontier‑качества для программирования
Фрагмент из раздела отчета
Модель обучалась на реальных инженерных сценариях: создание PR, поиск и исправление багов, code review, фронтенд‑разработка и ответы на технические вопросы.
- Улучшена совместная работа с Codex CLI и долгие многошаговые циклы.
- Это первая модель, обученная работать в Windows‑среде.
Бенчмарки (appendix)
Фрагмент из раздела отчета
- SWE‑bench Verified (n=500): 77,9% (GPT‑5.1‑Codex‑Max, xhigh) против 73,7% (GPT‑5.1‑Codex, high)
- SWE‑Lancer IC SWE: 79,9% против 66,3%
- Terminal‑Bench 2.0: 58,1% против 52,8%
Подробности из отчетаПоказатьСкрыть
GPT‑5.1‑Codex‑Max — фронтирная агентная модель OpenAI для программирования в Codex. Она построена на крупном обновлении модели рассуждений и оптимизирована под длительные инженерные задачи, глубокий контекст и токен‑эффективность.
Длинные задачи и compaction
Модель умеет работать через несколько окон контекста, используя compaction, что сохраняет ключевую информацию на горизонте миллионов токенов. Это позволяет вести многошаговые агентные циклы и не «терять нить» в очень длинных задачах.
- Внутренние оценки указывают на устойчивую работу в длительных сессиях.
- Есть примеры задач, где модель продолжала выполнение более 24 часов.
Скорость и эффективность
На SWE‑bench Verified в режиме reasoning effort medium GPT‑5.1‑Codex‑Max показывает более высокую точность, расходуя на 30% меньше thinking‑токенов по сравнению с GPT‑5.1‑Codex. Для задач без жёстких требований к задержке доступен режим Extra High (xhigh).
- Medium позиционируется как «ежедневный» режим для большинства инженерных задач.
- Снижение количества thinking‑токенов даёт прямую экономию стоимости.
Frontier‑качества для программирования
Модель обучалась на реальных инженерных сценариях: создание PR, поиск и исправление багов, code review, фронтенд‑разработка и ответы на технические вопросы.
- Улучшена совместная работа с Codex CLI и долгие многошаговые циклы.
- Это первая модель, обученная работать в Windows‑среде.
Бенчмарки (appendix)
- SWE‑bench Verified (n=500): 77,9% (GPT‑5.1‑Codex‑Max, xhigh) против 73,7% (GPT‑5.1‑Codex, high)
- SWE‑Lancer IC SWE: 79,9% против 66,3%
- Terminal‑Bench 2.0: 58,1% против 52,8%
Доступность
GPT‑5.1‑Codex‑Max доступна в Codex для планов ChatGPT Plus/Pro/Business/Edu/Enterprise; доступ через API заявлен «скоро». Модель заменяет GPT‑5.1‑Codex как вариант по умолчанию в Codex и рекомендована для агентных задач разработки.
Внутреннее использование
OpenAI сообщает, что 95% инженеров используют Codex еженедельно, а число PR на инженера выросло примерно на 70% после внедрения.