OpenAI25 сентября 2025 г.Мир44 профессии, 9 индустрий, 1320 задач (220 gold)

GDPval: Benchmark задач, представляющих вклад в ВВП

GDPval — новый бенчмарк OpenAI для оценки задач, которые представляют вклад в ВВП (GDP‑representative tasks). Он оценивает, насколько модели справляются с реальными рабочими задачами в ключевых профессиях и индустриях.

ЭкспериментКейс-стадиОткрыть источник

Методология и данные

1 блок

Задачи из 44 профессий/9 индустрий создавались опытными практиками (в среднем 14 лет стажа). Оценивание ответов выполняли эксперты в blind‑режиме; поверх человеческих оценок построен автоматизированный грейдер для масштабирования. Формат — one‑shot задачи с реальными артефактами.

ЭкспериментКейс-стади

Ключевые результаты

4 блока

Что измеряет GDPval

Фрагмент из раздела отчета

  • 44 профессии и 9 индустрий, которые формируют значимую долю ВВП США.
  • 1 320 задач в общей выборке, из них 220 “gold”‑задач опубликованы в открытом доступе.

Как устроено измерение

Фрагмент из раздела отчета

  • Задания создают опытные практики (в среднем 14 лет стажа в своей области).
  • Задачи включают реальные артефакты (документы, код, анализы и пр.), чтобы приблизить условия к рабочим.
  • Итоговые ответы оцениваются экспертами в blind‑режиме; поверх этого построен автоматизированный грейдер для масштабирования оценок.

Ранние результаты (early results)

Фрагмент из раздела отчета

  • Frontier‑модели приближаются к экспертам на ряде задач, хотя общий разрыв ещё сохраняется.
  • По результатам на gold‑наборе лучший общий результат показала Claude Opus 4.1, при этом GPT‑5 лидирует по точности.
  • Между GPT‑4o и GPT‑5 наблюдается примерно двукратный рост качества на GDPval.
  • Модели в среднем примерно в 100 раз быстрее и дешевле по сравнению с человеческим выполнением (inference‑скорость/стоимость).

Ограничения

Фрагмент из раздела отчета

  • Оценка проводится в one‑shot режиме и не покрывает длинные итеративные рабочие циклы, инструментальную работу и командные процессы.
Подробности из отчетаПоказать

GDPval — новый бенчмарк OpenAI для оценки задач, которые представляют вклад в ВВП (GDP‑representative tasks). Он оценивает, насколько модели справляются с реальными рабочими задачами в ключевых профессиях и индустриях.

Что измеряет GDPval

  • 44 профессии и 9 индустрий, которые формируют значимую долю ВВП США.
  • 1 320 задач в общей выборке, из них 220 “gold”‑задач опубликованы в открытом доступе.

Как устроено измерение

  • Задания создают опытные практики (в среднем 14 лет стажа в своей области).
  • Задачи включают реальные артефакты (документы, код, анализы и пр.), чтобы приблизить условия к рабочим.
  • Итоговые ответы оцениваются экспертами в blind‑режиме; поверх этого построен автоматизированный грейдер для масштабирования оценок.

Ранние результаты (early results)

  • Frontier‑модели приближаются к экспертам на ряде задач, хотя общий разрыв ещё сохраняется.
  • По результатам на gold‑наборе лучший общий результат показала Claude Opus 4.1, при этом GPT‑5 лидирует по точности.
  • Между GPT‑4o и GPT‑5 наблюдается примерно двукратный рост качества на GDPval.
  • Модели в среднем примерно в 100 раз быстрее и дешевле по сравнению с человеческим выполнением (inference‑скорость/стоимость).

Ограничения

  • Оценка проводится в one‑shot режиме и не покрывает длинные итеративные рабочие циклы, инструментальную работу и командные процессы.