Introducing SWE-bench Verified
SWE-bench Verified — расширение оригинального SWE-bench, где задачи дополнительно вручную верифицированы. Цель — получить более надёжную оценку качества моделей на реальных задачах разработки и снизить шум в метриках.
Методология и данные
1 блокКураторский отбор задач SWE-bench с ручной проверкой корректности постановки и ожидаемых исправлений; исключение неоднозначных/шумных задач для повышения надёжности метрики.
Ключевые результаты
4 блокаЧто такое SWE-bench Verified
Фрагмент из раздела отчета
- Подмножество задач SWE-bench с ручной проверкой корректности целевых исправлений.
- Упор на реальные issue/PR из open‑source репозиториев, где результат можно однозначно проверить.
Как устроена верификация
Фрагмент из раздела отчета
- Проверяются корректность постановки задачи и ожидаемого исправления.
- Отбрасываются неоднозначные или «шумные» задачи, чтобы метрика лучше отражала реальную способность модели чинить код.
Зачем это нужно
Фрагмент из раздела отчета
- Даёт более стабильную и сопоставимую оценку прогресса моделей.
- Полезно для оценки кодовых агентов и систем автоматического исправления ошибок.
Вывод
Фрагмент из раздела отчета
SWE-bench Verified повышает качество измерений и делает сравнения между моделями более надёжными, особенно в задачах автоматизации разработки.
Подробности из отчетаПоказатьСкрыть
SWE-bench Verified — расширение оригинального SWE-bench, где задачи дополнительно вручную верифицированы. Цель — получить более надёжную оценку качества моделей на реальных задачах разработки и снизить шум в метриках.
Что такое SWE-bench Verified
- Подмножество задач SWE-bench с ручной проверкой корректности целевых исправлений.
- Упор на реальные issue/PR из open‑source репозиториев, где результат можно однозначно проверить.
Как устроена верификация
- Проверяются корректность постановки задачи и ожидаемого исправления.
- Отбрасываются неоднозначные или «шумные» задачи, чтобы метрика лучше отражала реальную способность модели чинить код.
Зачем это нужно
- Даёт более стабильную и сопоставимую оценку прогресса моделей.
- Полезно для оценки кодовых агентов и систем автоматического исправления ошибок.
Вывод
SWE-bench Verified повышает качество измерений и делает сравнения между моделями более надёжными, особенно в задачах автоматизации разработки.