Introducing GPT-5.4
GPT-5.4 расширяет линейку OpenAI в coding и agentic computer-use сценариях с улучшенными результатами на нескольких benchmark-классах (источник).
Для команд это полезно как новая реперная точка по SWE-задачам, computer-use и knowledge-work eval-пакетам.
Срез исследования
5 фактовМетодология
3 блокаMulti-benchmark дизайн
Как собирали и структурировали данные
Оценка проводится по нескольким семействам задач, чтобы снижать зависимость от одного benchmark-сигнала и лучше отражать разнообразие агентных сценариев.
Сравнение поколений моделей
Как собирали и структурировали данные
OpenAI позиционирует GPT-5.4 через сопоставление с предыдущими версиями на сопоставимых оценочных наборах и типах задач.
Agentic scenario coverage
Как собирали и структурировали данные
Важная часть оценки — задачи, где модель должна планировать и завершать многошаговые действия, а не только генерировать фрагменты кода.
Ключевые результаты
3 выводаРост на SWE-профиле
Что важно для engineering-практики
Результат на SWE-Bench Pro подтверждает усиление в задачах software-fixing и completion на стандартных инженерных тестах.
Сильный computer-use сигнал
Что важно для engineering-практики
Высокий результат на OSWorld-Verified показывает рост в сценариях взаимодействия с окружением и инструментами.
Широкая конкурентность
Что важно для engineering-практики
По GDPval модель демонстрирует сильную позицию в сравнении и на задачах knowledge-work характера.
Риски и интерпретация
3 акцентаНужна проверка в продакшне
Как применять выводы в командах
Даже хорошие benchmark-оценки не заменяют проверку на реальных репозиториях, CI-политиках и требованиях сопровождения.
Смотрите на full-cycle KPI
Как применять выводы в командах
Для внедрения важно измерять полный цикл поставки: скорость, качество, устойчивость и стоимость последующей доработки.
Портфель eval-ов обязателен
Как применять выводы в командах
Выбор модели устойчивее, если опираться на набор независимых тестов, а не на единичный лидерборд-показатель.
Практический итог
GPT-5.4 усиливает benchmark-профиль OpenAI по нескольким направлениям одновременно.
Практический вывод: интерпретировать эти результаты стоит через production-метрики команды и собственный набор eval-ов под реальные задачи.
Подробности из отчетаПоказатьСкрыть
Introducing GPT-5.4 расширяет benchmark-профиль OpenAI в coding и computer-use сценариях.
Benchmark-срез
- 57,7% на SWE-Bench Pro
- 75,0% на OSWorld-Verified
- 83,0% wins/ties на GDPval
Методология
- Multi-benchmark подход по нескольким классам задач (coding, computer-use, knowledge-work).
- Сопоставление с предыдущими поколениями модели на единых eval-наборах.
Ограничения
- Benchmark-метрики не равны production-готовности без проверки в реальных репозиториях.
Практический вывод
Командам стоит использовать эти цифры как ориентир для shortlisting модели, но финальное решение принимать по внутренним инженерным KPI и надежности поставки.