OpenAI2 апреля 2024 г.МирSWE-bench Verified (верифицированное подмножество задач)

Introducing SWE-bench Verified

SWE-bench Verified — расширение оригинального SWE-bench, где задачи дополнительно вручную верифицированы. Цель — получить более надёжную оценку качества моделей на реальных задачах разработки и снизить шум в метриках.

ЭкспериментКейс-стадиОткрыть источник

Методология и данные

1 блок

Кураторский отбор задач SWE-bench с ручной проверкой корректности постановки и ожидаемых исправлений; исключение неоднозначных/шумных задач для повышения надёжности метрики.

ЭкспериментКейс-стади

Ключевые результаты

4 блока

Что такое SWE-bench Verified

Фрагмент из раздела отчета

  • Подмножество задач SWE-bench с ручной проверкой корректности целевых исправлений.
  • Упор на реальные issue/PR из open‑source репозиториев, где результат можно однозначно проверить.

Как устроена верификация

Фрагмент из раздела отчета

  • Проверяются корректность постановки задачи и ожидаемого исправления.
  • Отбрасываются неоднозначные или «шумные» задачи, чтобы метрика лучше отражала реальную способность модели чинить код.

Зачем это нужно

Фрагмент из раздела отчета

  • Даёт более стабильную и сопоставимую оценку прогресса моделей.
  • Полезно для оценки кодовых агентов и систем автоматического исправления ошибок.

Вывод

Фрагмент из раздела отчета

SWE-bench Verified повышает качество измерений и делает сравнения между моделями более надёжными, особенно в задачах автоматизации разработки.

Подробности из отчетаПоказать

SWE-bench Verified — расширение оригинального SWE-bench, где задачи дополнительно вручную верифицированы. Цель — получить более надёжную оценку качества моделей на реальных задачах разработки и снизить шум в метриках.

Что такое SWE-bench Verified

  • Подмножество задач SWE-bench с ручной проверкой корректности целевых исправлений.
  • Упор на реальные issue/PR из open‑source репозиториев, где результат можно однозначно проверить.

Как устроена верификация

  • Проверяются корректность постановки задачи и ожидаемого исправления.
  • Отбрасываются неоднозначные или «шумные» задачи, чтобы метрика лучше отражала реальную способность модели чинить код.

Зачем это нужно

  • Даёт более стабильную и сопоставимую оценку прогресса моделей.
  • Полезно для оценки кодовых агентов и систем автоматического исправления ошибок.

Вывод

SWE-bench Verified повышает качество измерений и делает сравнения между моделями более надёжными, особенно в задачах автоматизации разработки.