OpenAI25 сентября 2025 г.Мир44 профессии, 9 индустрий, 1320 задач (220 gold)

GDPval: Benchmark задач, представляющих вклад в ВВП

GDPval — новый бенчмарк OpenAI для оценки задач, которые представляют вклад в ВВП (GDP‑representative tasks). Он оценивает, насколько модели справляются с реальными рабочими задачами в ключевых профессиях и индустриях.

ЭкспериментКейс-стадиОткрыть источник

Методология и данные

1 блок

Задачи из 44 профессий/9 индустрий создавались опытными практиками (в среднем 14 лет стажа). Оценивание ответов выполняли эксперты в blind‑режиме; поверх человеческих оценок построен автоматизированный грейдер для масштабирования. Формат — one‑shot задачи с реальными артефактами.

ЭкспериментКейс-стади

Ключевые результаты

4 блока

Что измеряет GDPval

Фрагмент из раздела отчета

44 профессии и 9 индустрий, которые формируют значимую долю ВВП США.
1 320 задач в общей выборке, из них 220 “gold”‑задач опубликованы в открытом доступе.

Как устроено измерение

Фрагмент из раздела отчета

Задания создают опытные практики (в среднем 14 лет стажа в своей области).
Задачи включают реальные артефакты (документы, код, анализы и пр.), чтобы приблизить условия к рабочим.
Итоговые ответы оцениваются экспертами в blind‑режиме; поверх этого построен автоматизированный грейдер для масштабирования оценок.

Ранние результаты (early results)

Фрагмент из раздела отчета

Frontier‑модели приближаются к экспертам на ряде задач, хотя общий разрыв ещё сохраняется.
По результатам на gold‑наборе лучший общий результат показала Claude Opus 4.1, при этом GPT‑5 лидирует по точности.
Между GPT‑4o и GPT‑5 наблюдается примерно двукратный рост качества на GDPval.
Модели в среднем примерно в 100 раз быстрее и дешевле по сравнению с человеческим выполнением (inference‑скорость/стоимость).

Ограничения

Фрагмент из раздела отчета

Оценка проводится в one‑shot режиме и не покрывает длинные итеративные рабочие циклы, инструментальную работу и командные процессы.

Подробности из отчетаПоказать

Что измеряет GDPval

44 профессии и 9 индустрий, которые формируют значимую долю ВВП США.
1 320 задач в общей выборке, из них 220 “gold”‑задач опубликованы в открытом доступе.

Как устроено измерение

Задания создают опытные практики (в среднем 14 лет стажа в своей области).
Задачи включают реальные артефакты (документы, код, анализы и пр.), чтобы приблизить условия к рабочим.
Итоговые ответы оцениваются экспертами в blind‑режиме; поверх этого построен автоматизированный грейдер для масштабирования оценок.

Ранние результаты (early results)

Frontier‑модели приближаются к экспертам на ряде задач, хотя общий разрыв ещё сохраняется.
По результатам на gold‑наборе лучший общий результат показала Claude Opus 4.1, при этом GPT‑5 лидирует по точности.
Между GPT‑4o и GPT‑5 наблюдается примерно двукратный рост качества на GDPval.
Модели в среднем примерно в 100 раз быстрее и дешевле по сравнению с человеческим выполнением (inference‑скорость/стоимость).

Ограничения

Оценка проводится в one‑shot режиме и не покрывает длинные итеративные рабочие циклы, инструментальную работу и командные процессы.