Stanford Software Engineering Productivity Research 2025
Программа Software Engineering Productivity (SEP) Стэнфордского университета анализирует, как генеративный ИИ и ассистенты меняют повседневную инженерную практику. Отчет 2025 года объединяет телеметрию частных репозиториев, опросы и экспертные ревью, чтобы отделить реальный эффект AI-инструментов от иллюзий «роста output».
Методология и данные
1 блокТелеметрия приватных репозиториев, опросы, экспертные ревью и ML-модель для масштабирования оценок
Ключевые результаты
3 блокаПочему существующие оценки продуктивности ненадёжны
Фрагмент из раздела отчета
- Спонсорство поставщиками (GitHub Copilot, Sourcegraph Cody) смещает выборку и метрики в пользу демонстрации выгод.
- Метрики «количества коммитов/PR» без учета размера и качества задач создают ложное ощущение роста производительности.
- Оценки на greenfield-проектах и учебных заданиях завышают эффект: LLM быстро генерируют boilerplate, но редко работают в условиях зрелых корпоративных кодовых баз.
- Опросы самооценки продуктивности неточны; их лучше дополнять объективными показателями и фокусом на well-being/удовлетворенность.
Методология исследования Stanford SEP
Фрагмент из раздела отчета
- Доступ к приватным репозиториям: команды-партнёры подключали git-историю, что позволяло учитывать реальный контекст задач и архитектурные ограничения.
- Экспертное оценивание кода: 10–15 архитекторов ставили баллы за качество, поддерживаемость и сложность изменений; оценки хорошо коррелировали между собой и использовались как разметка.
- Модель для масштабирования ревью: обучили модель, воспроизводящую экспертные оценки с высокой корреляцией, что позволило масштабировать анализ без дорогих ревью.
- Классификация изменений: все изменения размечались как добавление функционала, удаление, рефакторинг или rework (переделка свежего кода).
- Продольный анализ 2019–2025: модель применялась ретроспективно, чтобы увидеть влияние COVID, последующего внедрения LLM и эволюции практик по годам.
Ключевые количественные выводы
Фрагмент из раздела отчета
- Сырой прирост объёма кода после внедрения ИИ: +30–40%, включая полезные изменения и rework.
- Уточнённый прирост продуктивности (с поправкой на багфиксы): +15–20%.
- На сложных задачах эффект близок к нулю, дисперсия высока; местами наблюдалось снижение скорости.
- Зависимость от сложности задачи и зрелости проекта (2×2 матрица):
- Низкая сложность, greenfield: 30–40% выгода.
- Низкая сложность, brownfield: 15–20% выгода.
- Высокая сложность, greenfield: 10–15% выгода.
- Высокая сложность, brownfield: 0–10%, иногда убыток.
- Языковые различия: популярные языки дают более высокую эффективность; эзотерические — ниже.
- Эффект падает логарифмически с ростом размера кодовой базы: контекстные ограничения LLM и высокий coupling повышают шум подсказок.
Подробности из отчетаПоказатьСкрыть
Программа Software Engineering Productivity (SEP) Стэнфордского университета анализирует, как генеративный ИИ и ассистенты меняют повседневную инженерную практику. Отчет 2025 года объединяет телеметрию частных репозиториев, опросы и экспертные ревью, чтобы отделить реальный эффект AI-инструментов от иллюзий «роста output».
Почему существующие оценки продуктивности ненадёжны
- Спонсорство поставщиками (GitHub Copilot, Sourcegraph Cody) смещает выборку и метрики в пользу демонстрации выгод.
- Метрики «количества коммитов/PR» без учета размера и качества задач создают ложное ощущение роста производительности.
- Оценки на greenfield-проектах и учебных заданиях завышают эффект: LLM быстро генерируют boilerplate, но редко работают в условиях зрелых корпоративных кодовых баз.
- Опросы самооценки продуктивности неточны; их лучше дополнять объективными показателями и фокусом на well-being/удовлетворенность.
Методология исследования Stanford SEP
- Доступ к приватным репозиториям: команды-партнёры подключали git-историю, что позволяло учитывать реальный контекст задач и архитектурные ограничения.
- Экспертное оценивание кода: 10–15 архитекторов ставили баллы за качество, поддерживаемость и сложность изменений; оценки хорошо коррелировали между собой и использовались как разметка.
- Модель для масштабирования ревью: обучили модель, воспроизводящую экспертные оценки с высокой корреляцией, что позволило масштабировать анализ без дорогих ревью.
- Классификация изменений: все изменения размечались как добавление функционала, удаление, рефакторинг или rework (переделка свежего кода).
- Продольный анализ 2019–2025: модель применялась ретроспективно, чтобы увидеть влияние COVID, последующего внедрения LLM и эволюции практик по годам.
Ключевые количественные выводы
- Сырой прирост объёма кода после внедрения ИИ: +30–40%, включая полезные изменения и rework.
- Уточнённый прирост продуктивности (с поправкой на багфиксы): +15–20%.
- На сложных задачах эффект близок к нулю, дисперсия высока; местами наблюдалось снижение скорости.
- Зависимость от сложности задачи и зрелости проекта (2×2 матрица):
- Низкая сложность, greenfield: 30–40% выгода.
- Низкая сложность, brownfield: 15–20% выгода.
- Высокая сложность, greenfield: 10–15% выгода.
- Высокая сложность, brownfield: 0–10%, иногда убыток.
- Языковые различия: популярные языки дают более высокую эффективность; эзотерические — ниже.
- Эффект падает логарифмически с ростом размера кодовой базы: контекстные ограничения LLM и высокий coupling повышают шум подсказок.