Авторы исследования
9 февраля 2026 г.Мир20 задач по программированию в 8 категориях — от концептуальных задач до реальных прикладных сценариев для end-to-end генерации проектов

ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development

ProjDevBench оценивает AI coding agents на end-to-end project development: агент получает требования к проекту и должен сгенерировать полноценный repository, а не отдельный patch. Это закрывает важный пробел: большинство популярных evals проверяет issue-level bug fixing, тогда как real-world adoption всё чаще касается создания целых приложений и сервисов.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Benchmark, сочетающий проверку через Online Judge с код-ревью при помощи LLM; оценивает проектирование архитектуры системы, функциональную корректность и итеративную доработку решения.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Benchmark содержит 20 programming problems across 8 categories, включая concept-oriented tasks и real-world application scenarios. Агент должен построить codebase целиком: архитектуру, функциональность, обработку edge cases и resource constraints.

Методология

Фрагмент из раздела отчета

ProjDevBench объединяет Online Judge testing и LLM-assisted code review. Evaluation смотрит на три измерения: system architecture design, functional correctness и iterative solution refinement. Такой подход отделяет “код компилируется” от “проект спроектирован устойчиво”.

Результаты агентов

Фрагмент из раздела отчета

Авторы оценивают six coding agents built on different LLM backends. Overall acceptance rate составляет 27,38%: агенты справляются с basic functionality и data structures, но заметно хуже работают с complex system design, time complexity optimization и resource management.

Почему это важно

Фрагмент из раздела отчета

End-to-end project generation — один из главных promises agentic coding tools. Но ProjDevBench показывает, что способность собрать “первую версию” не равна способности спроектировать надёжную систему. У агентов остаются проблемы с архитектурными решениями и эксплуатационными constraints.

Подробности из отчетаПоказать

ProjDevBench оценивает AI coding agents на end-to-end project development: агент получает требования к проекту и должен сгенерировать полноценный repository, а не отдельный patch. Это закрывает важный пробел: большинство популярных evals проверяет issue-level bug fixing, тогда как real-world adoption всё чаще касается создания целых приложений и сервисов.

Что измеряли

Benchmark содержит 20 programming problems across 8 categories, включая concept-oriented tasks и real-world application scenarios. Агент должен построить codebase целиком: архитектуру, функциональность, обработку edge cases и resource constraints.

Методология

ProjDevBench объединяет Online Judge testing и LLM-assisted code review. Evaluation смотрит на три измерения: system architecture design, functional correctness и iterative solution refinement. Такой подход отделяет “код компилируется” от “проект спроектирован устойчиво”.

Результаты агентов

Авторы оценивают six coding agents built on different LLM backends. Overall acceptance rate составляет 27,38%: агенты справляются с basic functionality и data structures, но заметно хуже работают с complex system design, time complexity optimization и resource management.

Почему это важно

End-to-end project generation — один из главных promises agentic coding tools. Но ProjDevBench показывает, что способность собрать “первую версию” не равна способности спроектировать надёжную систему. У агентов остаются проблемы с архитектурными решениями и эксплуатационными constraints.

Практический вывод

ProjDevBench полезен для оценки AI tools, обещающих “создать приложение из prompt”. Командам стоит проверять такие инструменты не только на happy path, но и на архитектуру, сложность алгоритмов, память/CPU, тестируемость и способность итеративно исправлять проект после review.