OpenAI29 мая 2025 г.МирSWE‑Lancer: 1 400+ задач Upwork, суммарная ценность ~$1 млн

SWE‑Lancer: Can Frontier LLMs Earn $1 Million from Real‑World Freelance Software Engineering?

SWE‑Lancer — бенчмарк реальных freelance‑задач по разработке ПО с Upwork, суммарно оценённых в ~$1 млн. Он сопоставляет качество решений LLM с денежной ценностью задач на рынке.

ЭкспериментКейс-стадиОткрыть источник

Методология и данные

1 блок

Бенчмарк freelance‑задач из Upwork: независимые инженерные задачи и управленческие решения; независимые задачи оцениваются end‑to‑end тестами (тройная проверка инженерами), управленческие — по выбору исходных менеджеров.

ЭкспериментКейс-стади

Ключевые результаты

3 блока

Методология

Фрагмент из раздела отчета

Бенчмарк включает более 1 400 задач из Upwork и два типа оценок:

Ключевые результаты

Фрагмент из раздела отчета

  • Frontier‑модели все ещё не решают большинство задач SWE‑Lancer.

Данные и воспроизводимость

Фрагмент из раздела отчета

  • Авторы открыли единый Docker‑образ и публичный сплит для оценки — SWE‑Lancer Diamond.
Подробности из отчетаПоказать

SWE‑Lancer — бенчмарк реальных freelance‑задач по разработке ПО с Upwork, суммарно оценённых в ~$1 млн. Он сопоставляет качество решений LLM с денежной ценностью задач на рынке.

Методология

Бенчмарк включает более 1 400 задач из Upwork и два типа оценок:

  • Независимые инженерные задачи (от $50 багфиксов до $32 000 фич): оцениваются по end‑to‑end тестам, которые были тройным образом верифицированы опытными инженерами.
  • Управленческие задачи: модель выбирает между предложениями реализации, а правильность сравнивается с решениями исходных нанятых менеджеров.

Ключевые результаты

  • Frontier‑модели все ещё не решают большинство задач SWE‑Lancer.

Данные и воспроизводимость

  • Авторы открыли единый Docker‑образ и публичный сплит для оценки — SWE‑Lancer Diamond.