Software Engineering Productivity Research1 декабря 2025 г.Мир120000 инженеров (данные из git, 2019–2025)

Stanford Software Engineering Productivity Research 2025

Программа Software Engineering Productivity (SEP) Стэнфордского университета анализирует, как генеративный ИИ и ассистенты меняют повседневную инженерную практику. Отчет 2025 года объединяет телеметрию частных репозиториев, опросы и экспертные ревью, чтобы отделить реальный эффект AI-инструментов от иллюзий «роста output».

ТелеметрияОткрыть источник

Методология и данные

1 блок

Телеметрия приватных репозиториев, опросы, экспертные ревью и ML-модель для масштабирования оценок

Телеметрия

Ключевые результаты

3 блока

Почему существующие оценки продуктивности ненадёжны

Фрагмент из раздела отчета

Спонсорство поставщиками (GitHub Copilot, Sourcegraph Cody) смещает выборку и метрики в пользу демонстрации выгод.
Метрики «количества коммитов/PR» без учета размера и качества задач создают ложное ощущение роста производительности.
Оценки на greenfield-проектах и учебных заданиях завышают эффект: LLM быстро генерируют boilerplate, но редко работают в условиях зрелых корпоративных кодовых баз.
Опросы самооценки продуктивности неточны; их лучше дополнять объективными показателями и фокусом на well-being/удовлетворенность.

Методология исследования Stanford SEP

Фрагмент из раздела отчета

Доступ к приватным репозиториям: команды-партнёры подключали git-историю, что позволяло учитывать реальный контекст задач и архитектурные ограничения.
Экспертное оценивание кода: 10–15 архитекторов ставили баллы за качество, поддерживаемость и сложность изменений; оценки хорошо коррелировали между собой и использовались как разметка.
Модель для масштабирования ревью: обучили модель, воспроизводящую экспертные оценки с высокой корреляцией, что позволило масштабировать анализ без дорогих ревью.
Классификация изменений: все изменения размечались как добавление функционала, удаление, рефакторинг или rework (переделка свежего кода).
Продольный анализ 2019–2025: модель применялась ретроспективно, чтобы увидеть влияние COVID, последующего внедрения LLM и эволюции практик по годам.

Ключевые количественные выводы

Фрагмент из раздела отчета

Сырой прирост объёма кода после внедрения ИИ: +30–40%, включая полезные изменения и rework.
Уточнённый прирост продуктивности (с поправкой на багфиксы): +15–20%.
На сложных задачах эффект близок к нулю, дисперсия высока; местами наблюдалось снижение скорости.
Зависимость от сложности задачи и зрелости проекта (2×2 матрица):
- Низкая сложность, greenfield: 30–40% выгода.
- Низкая сложность, brownfield: 15–20% выгода.
- Высокая сложность, greenfield: 10–15% выгода.
- Высокая сложность, brownfield: 0–10%, иногда убыток.
Языковые различия: популярные языки дают более высокую эффективность; эзотерические — ниже.
Эффект падает логарифмически с ростом размера кодовой базы: контекстные ограничения LLM и высокий coupling повышают шум подсказок.

Подробности из отчетаПоказать

Почему существующие оценки продуктивности ненадёжны

Спонсорство поставщиками (GitHub Copilot, Sourcegraph Cody) смещает выборку и метрики в пользу демонстрации выгод.
Метрики «количества коммитов/PR» без учета размера и качества задач создают ложное ощущение роста производительности.
Оценки на greenfield-проектах и учебных заданиях завышают эффект: LLM быстро генерируют boilerplate, но редко работают в условиях зрелых корпоративных кодовых баз.
Опросы самооценки продуктивности неточны; их лучше дополнять объективными показателями и фокусом на well-being/удовлетворенность.

Методология исследования Stanford SEP

Доступ к приватным репозиториям: команды-партнёры подключали git-историю, что позволяло учитывать реальный контекст задач и архитектурные ограничения.
Экспертное оценивание кода: 10–15 архитекторов ставили баллы за качество, поддерживаемость и сложность изменений; оценки хорошо коррелировали между собой и использовались как разметка.
Модель для масштабирования ревью: обучили модель, воспроизводящую экспертные оценки с высокой корреляцией, что позволило масштабировать анализ без дорогих ревью.
Классификация изменений: все изменения размечались как добавление функционала, удаление, рефакторинг или rework (переделка свежего кода).
Продольный анализ 2019–2025: модель применялась ретроспективно, чтобы увидеть влияние COVID, последующего внедрения LLM и эволюции практик по годам.

Ключевые количественные выводы

Сырой прирост объёма кода после внедрения ИИ: +30–40%, включая полезные изменения и rework.
Уточнённый прирост продуктивности (с поправкой на багфиксы): +15–20%.
На сложных задачах эффект близок к нулю, дисперсия высока; местами наблюдалось снижение скорости.
Зависимость от сложности задачи и зрелости проекта (2×2 матрица):
- Низкая сложность, greenfield: 30–40% выгода.
- Низкая сложность, brownfield: 15–20% выгода.
- Высокая сложность, greenfield: 10–15% выгода.
- Высокая сложность, brownfield: 0–10%, иногда убыток.
Языковые различия: популярные языки дают более высокую эффективность; эзотерические — ниже.
Эффект падает логарифмически с ростом размера кодовой базы: контекстные ограничения LLM и высокий coupling повышают шум подсказок.