SWE‑Lancer: Can Frontier LLMs Earn $1 Million from Real‑World Freelance Software Engineering?
SWE‑Lancer — бенчмарк реальных freelance‑задач по разработке ПО с Upwork, суммарно оценённых в ~$1 млн. Он сопоставляет качество решений LLM с денежной ценностью задач на рынке.
Методология и данные
1 блокБенчмарк freelance‑задач из Upwork: независимые инженерные задачи и управленческие решения; независимые задачи оцениваются end‑to‑end тестами (тройная проверка инженерами), управленческие — по выбору исходных менеджеров.
Ключевые результаты
3 блокаМетодология
Фрагмент из раздела отчета
Бенчмарк включает более 1 400 задач из Upwork и два типа оценок:
Ключевые результаты
Фрагмент из раздела отчета
- Frontier‑модели все ещё не решают большинство задач SWE‑Lancer.
Данные и воспроизводимость
Фрагмент из раздела отчета
- Авторы открыли единый Docker‑образ и публичный сплит для оценки — SWE‑Lancer Diamond.
Подробности из отчетаПоказатьСкрыть
SWE‑Lancer — бенчмарк реальных freelance‑задач по разработке ПО с Upwork, суммарно оценённых в ~$1 млн. Он сопоставляет качество решений LLM с денежной ценностью задач на рынке.
Методология
Бенчмарк включает более 1 400 задач из Upwork и два типа оценок:
- Независимые инженерные задачи (от $50 багфиксов до $32 000 фич): оцениваются по end‑to‑end тестам, которые были тройным образом верифицированы опытными инженерами.
- Управленческие задачи: модель выбирает между предложениями реализации, а правильность сравнивается с решениями исходных нанятых менеджеров.
Ключевые результаты
- Frontier‑модели все ещё не решают большинство задач SWE‑Lancer.
Данные и воспроизводимость
- Авторы открыли единый Docker‑образ и публичный сплит для оценки — SWE‑Lancer Diamond.