SecureVibeBench: Benchmarking Secure Vibe Coding of AI Agents via Reconstructing Vulnerability-Introducing Scenarios
SecureVibeBench оценивает secure vibe coding: могут ли AI code agents генерировать код, который одновременно функционально корректен и не воспроизводит реальные vulnerability patterns. Это важный security benchmark, потому что обычные coding benchmarks часто проверяют только прохождение тестов, но не безопасность результата.
Методология и данные
1 блокBenchmark с многофайловыми правками в больших репозиториях, точками внесения уязвимостей и оценкой, сочетающей тестирование функциональности со статическими и динамическими security-оракулами.
Ключевые результаты
4 блокаЧто измеряли
Фрагмент из раздела отчета
Benchmark включает 105 C/C++ secure coding tasks, sourced from 41 projects in OSS-Fuzz. Каждая задача реконструирует realistic vulnerability-introducing scenario: агент должен выполнить multi-file edits в крупном репозитории и не вернуть historical vulnerability pattern.
Методология
Фрагмент из раздела отчета
SecureVibeBench использует aligned contexts based on real-world open-source vulnerabilities with precisely identified vulnerability introduction points. Evaluation combines functionality testing and security checking with both static and dynamic oracles, поэтому агенту недостаточно просто пройти unit tests.
Модели и агенты
Фрагмент из раздела отчета
Авторы проверяют five popular code agents, including OpenHands, supported by five LLMs, including Claude Sonnet 4.5. Такой дизайн отделяет model capability от agent scaffolding и показывает, что security failure может возникать на уровне всей agentic system.
Ключевой результат
Фрагмент из раздела отчета
Даже лучший агент produces merely 23.8% correct and secure solutions. Остальные решения либо функционально не проходят, либо reintroduce vulnerabilities, либо делают и то и другое. Это показывает большой разрыв между “работает” и “работает безопасно”.
Подробности из отчетаПоказатьСкрыть
SecureVibeBench оценивает secure vibe coding: могут ли AI code agents генерировать код, который одновременно функционально корректен и не воспроизводит реальные vulnerability patterns. Это важный security benchmark, потому что обычные coding benchmarks часто проверяют только прохождение тестов, но не безопасность результата.
Что измеряли
Benchmark включает 105 C/C++ secure coding tasks, sourced from 41 projects in OSS-Fuzz. Каждая задача реконструирует realistic vulnerability-introducing scenario: агент должен выполнить multi-file edits в крупном репозитории и не вернуть historical vulnerability pattern.
Методология
SecureVibeBench использует aligned contexts based on real-world open-source vulnerabilities with precisely identified vulnerability introduction points. Evaluation combines functionality testing and security checking with both static and dynamic oracles, поэтому агенту недостаточно просто пройти unit tests.
Модели и агенты
Авторы проверяют five popular code agents, including OpenHands, supported by five LLMs, including Claude Sonnet 4.5. Такой дизайн отделяет model capability от agent scaffolding и показывает, что security failure может возникать на уровне всей agentic system.
Ключевой результат
Даже лучший агент produces merely 23.8% correct and secure solutions. Остальные решения либо функционально не проходят, либо reintroduce vulnerabilities, либо делают и то и другое. Это показывает большой разрыв между “работает” и “работает безопасно”.
Практический вывод
SecureVibeBench — сильный аргумент против автоматического доверия AI-generated code. Для production AI4SDLC нужны security oracles, SAST/DAST, fuzzing, review gates и отдельные secure-code evals; обычный benchmark pass или green tests не доказывают, что агент не внёс уязвимость.