Авторы исследования

1 июля 2026 г.Мир105 задач по безопасному кодингу на C/C++ из 41 проекта OSS-Fuzz; реалистичные сценарии внесения уязвимостей для кодовых агентов

SecureVibeBench: Benchmarking Secure Vibe Coding of AI Agents via Reconstructing Vulnerability-Introducing Scenarios

SecureVibeBench оценивает secure vibe coding: могут ли AI code agents генерировать код, который одновременно функционально корректен и не воспроизводит реальные vulnerability patterns. Это важный security benchmark, потому что обычные coding benchmarks часто проверяют только прохождение тестов, но не безопасность результата.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Benchmark с многофайловыми правками в больших репозиториях, точками внесения уязвимостей и оценкой, сочетающей тестирование функциональности со статическими и динамическими security-оракулами.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Benchmark включает 105 C/C++ secure coding tasks, sourced from 41 projects in OSS-Fuzz. Каждая задача реконструирует realistic vulnerability-introducing scenario: агент должен выполнить multi-file edits в крупном репозитории и не вернуть historical vulnerability pattern.

Методология

Фрагмент из раздела отчета

SecureVibeBench использует aligned contexts based on real-world open-source vulnerabilities with precisely identified vulnerability introduction points. Evaluation combines functionality testing and security checking with both static and dynamic oracles, поэтому агенту недостаточно просто пройти unit tests.

Модели и агенты

Фрагмент из раздела отчета

Авторы проверяют five popular code agents, including OpenHands, supported by five LLMs, including Claude Sonnet 4.5. Такой дизайн отделяет model capability от agent scaffolding и показывает, что security failure может возникать на уровне всей agentic system.

Ключевой результат

Фрагмент из раздела отчета

Даже лучший агент produces merely 23.8% correct and secure solutions. Остальные решения либо функционально не проходят, либо reintroduce vulnerabilities, либо делают и то и другое. Это показывает большой разрыв между “работает” и “работает безопасно”.

Подробности из отчетаПоказать

Что измеряли

Методология

Модели и агенты

Ключевой результат

Практический вывод

SecureVibeBench — сильный аргумент против автоматического доверия AI-generated code. Для production AI4SDLC нужны security oracles, SAST/DAST, fuzzing, review gates и отдельные secure-code evals; обычный benchmark pass или green tests не доказывают, что агент не внёс уязвимость.