8 исследований

OpenAI

OpenAI — организация, которая сочетает исследования и внедрение ИИ‑систем. Миссия: сделать так, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству.

Почему релевантна software engineering

  • Создает модели и инструменты, которыми пользуются команды разработки: API и Codex (агент для задач программирования — генерация кода/тестов, отладка, рефакторинг, code review в рабочих средах разработчика).
  • Публично описывает измерение качества на прикладных инженерных задачах и бенчмарках (в т.ч. SWE‑bench Verified).

Исследования и сбор обратной связи

  • Публикует исследования реального использования (например, «How people are using ChatGPT») на основе масштабного privacy‑preserving анализа данных.
  • Поддерживает систематические оценки безопасности и качества и делится частью результатов (system cards, evaluations hub), обновляя методики по мере развития моделей.
  • Использует внешнюю проверку и фидбэк: Red Teaming Network, баг‑баунти и другие каналы обратной связи.

Управление

OpenAI состоит из некоммерческой OpenAI Foundation и коммерческой OpenAI Group PBC. Foundation контролирует Group (включая назначение/замену совета директоров) и сохраняет миссию и надзор за безопасностью.

Почему учитывать позицию OpenAI в исследованиях влияния AI

OpenAI находится на стыке R&D и продакшн‑эксплуатации: они одновременно создают инструменты для программистов и публикуют методы оценки и результаты исследований использования. Это делает их наблюдения полезными при анализе влияния AI на практики разработки, качество и безопасность ПО, а также на организацию труда в инженерных командах.

Исследования

GPT‑5.1‑Codex‑Max: frontier агентная модель для разработки

На SWE‑bench Verified модель показывает более высокую точность при ~30% меньших thinking‑токенах vs GPT‑5.1‑Codex; в режиме xhigh превосходит GPT‑5.1‑Codex на SWE‑bench Verified (77,9% vs 73,7%), SWE‑Lancer IC SWE (79,9% vs 66,3%) и Terminal‑Bench 2.0 (58,1% vs 52,8%). OpenAI сообщает о 95% еженедельного использования Codex инженерами и росте PR на инженера примерно на 70%.

2025
19 ноября 2025 г.МирCodex; оценка на SWE‑bench Verified (n=500), SWE‑Lancer IC SWE и Terminal‑Bench 2.0; внутренние оценки длительных задач