GDPval: Benchmark задач, представляющих вклад в ВВП
GDPval — новый бенчмарк OpenAI для оценки задач, которые представляют вклад в ВВП (GDP‑representative tasks). Он оценивает, насколько модели справляются с реальными рабочими задачами в ключевых профессиях и индустриях.
Методология и данные
1 блокЗадачи из 44 профессий/9 индустрий создавались опытными практиками (в среднем 14 лет стажа). Оценивание ответов выполняли эксперты в blind‑режиме; поверх человеческих оценок построен автоматизированный грейдер для масштабирования. Формат — one‑shot задачи с реальными артефактами.
Ключевые результаты
4 блокаЧто измеряет GDPval
Фрагмент из раздела отчета
- 44 профессии и 9 индустрий, которые формируют значимую долю ВВП США.
- 1 320 задач в общей выборке, из них 220 “gold”‑задач опубликованы в открытом доступе.
Как устроено измерение
Фрагмент из раздела отчета
- Задания создают опытные практики (в среднем 14 лет стажа в своей области).
- Задачи включают реальные артефакты (документы, код, анализы и пр.), чтобы приблизить условия к рабочим.
- Итоговые ответы оцениваются экспертами в blind‑режиме; поверх этого построен автоматизированный грейдер для масштабирования оценок.
Ранние результаты (early results)
Фрагмент из раздела отчета
- Frontier‑модели приближаются к экспертам на ряде задач, хотя общий разрыв ещё сохраняется.
- По результатам на gold‑наборе лучший общий результат показала Claude Opus 4.1, при этом GPT‑5 лидирует по точности.
- Между GPT‑4o и GPT‑5 наблюдается примерно двукратный рост качества на GDPval.
- Модели в среднем примерно в 100 раз быстрее и дешевле по сравнению с человеческим выполнением (inference‑скорость/стоимость).
Ограничения
Фрагмент из раздела отчета
- Оценка проводится в one‑shot режиме и не покрывает длинные итеративные рабочие циклы, инструментальную работу и командные процессы.
Подробности из отчетаПоказатьСкрыть
GDPval — новый бенчмарк OpenAI для оценки задач, которые представляют вклад в ВВП (GDP‑representative tasks). Он оценивает, насколько модели справляются с реальными рабочими задачами в ключевых профессиях и индустриях.
Что измеряет GDPval
- 44 профессии и 9 индустрий, которые формируют значимую долю ВВП США.
- 1 320 задач в общей выборке, из них 220 “gold”‑задач опубликованы в открытом доступе.
Как устроено измерение
- Задания создают опытные практики (в среднем 14 лет стажа в своей области).
- Задачи включают реальные артефакты (документы, код, анализы и пр.), чтобы приблизить условия к рабочим.
- Итоговые ответы оцениваются экспертами в blind‑режиме; поверх этого построен автоматизированный грейдер для масштабирования оценок.
Ранние результаты (early results)
- Frontier‑модели приближаются к экспертам на ряде задач, хотя общий разрыв ещё сохраняется.
- По результатам на gold‑наборе лучший общий результат показала Claude Opus 4.1, при этом GPT‑5 лидирует по точности.
- Между GPT‑4o и GPT‑5 наблюдается примерно двукратный рост качества на GDPval.
- Модели в среднем примерно в 100 раз быстрее и дешевле по сравнению с человеческим выполнением (inference‑скорость/стоимость).
Ограничения
- Оценка проводится в one‑shot режиме и не покрывает длинные итеративные рабочие циклы, инструментальную работу и командные процессы.