OpenAI5 марта 2026 г.МирCoding + computer-use + knowledge-work evals (including SWE-Bench Pro, OSWorld-Verified, GDPval)

Introducing GPT-5.4

GPT-5.4 расширяет линейку OpenAI в coding и agentic computer-use сценариях с улучшенными результатами на нескольких benchmark-классах (источник).

Для команд это полезно как новая реперная точка по SWE-задачам, computer-use и knowledge-work eval-пакетам.

ЭкспериментКейс-стадиОткрыть источник

Срез исследования

5 фактов
57,7%
SWE-Bench Pro
75,0%
OSWorld-Verified
83,0%
GDPval wins/ties
5 марта 2026
Релиз
Coding + computer-use
Фокус

Методология

3 блока

Multi-benchmark дизайн

Как собирали и структурировали данные

SWEOSWorldGDPval

Оценка проводится по нескольким семействам задач, чтобы снижать зависимость от одного benchmark-сигнала и лучше отражать разнообразие агентных сценариев.

Сравнение поколений моделей

Как собирали и структурировали данные

relative uplift

OpenAI позиционирует GPT-5.4 через сопоставление с предыдущими версиями на сопоставимых оценочных наборах и типах задач.

Agentic scenario coverage

Как собирали и структурировали данные

computer-use workflows

Важная часть оценки — задачи, где модель должна планировать и завершать многошаговые действия, а не только генерировать фрагменты кода.

Ключевые результаты

3 вывода

Рост на SWE-профиле

Что важно для engineering-практики

57,7% SWE-Bench Pro

Результат на SWE-Bench Pro подтверждает усиление в задачах software-fixing и completion на стандартных инженерных тестах.

Сильный computer-use сигнал

Что важно для engineering-практики

75,0% OSWorld-Verified

Высокий результат на OSWorld-Verified показывает рост в сценариях взаимодействия с окружением и инструментами.

Широкая конкурентность

Что важно для engineering-практики

83,0% GDPval wins/ties

По GDPval модель демонстрирует сильную позицию в сравнении и на задачах knowledge-work характера.

Риски и интерпретация

3 акцента

Нужна проверка в продакшне

Как применять выводы в командах

benchmark != production

Даже хорошие benchmark-оценки не заменяют проверку на реальных репозиториях, CI-политиках и требованиях сопровождения.

Смотрите на full-cycle KPI

Как применять выводы в командах

lead timereworkincidents

Для внедрения важно измерять полный цикл поставки: скорость, качество, устойчивость и стоимость последующей доработки.

Портфель eval-ов обязателен

Как применять выводы в командах

portfolio evaluation

Выбор модели устойчивее, если опираться на набор независимых тестов, а не на единичный лидерборд-показатель.

Практический итог

GPT-5.4 усиливает benchmark-профиль OpenAI по нескольким направлениям одновременно.

Практический вывод: интерпретировать эти результаты стоит через production-метрики команды и собственный набор eval-ов под реальные задачи.

Подробности из отчетаПоказать

Introducing GPT-5.4 расширяет benchmark-профиль OpenAI в coding и computer-use сценариях.

Benchmark-срез

  • 57,7% на SWE-Bench Pro
  • 75,0% на OSWorld-Verified
  • 83,0% wins/ties на GDPval

Методология

  • Multi-benchmark подход по нескольким классам задач (coding, computer-use, knowledge-work).
  • Сопоставление с предыдущими поколениями модели на единых eval-наборах.

Ограничения

  • Benchmark-метрики не равны production-готовности без проверки в реальных репозиториях.

Практический вывод

Командам стоит использовать эти цифры как ориентир для shortlisting модели, но финальное решение принимать по внутренним инженерным KPI и надежности поставки.