Software Engineering Productivity Research1 декабря 2025 г.Мир120000 инженеров (данные из git, 2019–2025)

Stanford Software Engineering Productivity Research 2025

Программа Software Engineering Productivity (SEP) Стэнфордского университета анализирует, как генеративный ИИ и ассистенты меняют повседневную инженерную практику. Отчет 2025 года объединяет телеметрию частных репозиториев, опросы и экспертные ревью, чтобы отделить реальный эффект AI-инструментов от иллюзий «роста output».

Методология и данные

1 блок

Телеметрия приватных репозиториев, опросы, экспертные ревью и ML-модель для масштабирования оценок

Телеметрия

Ключевые результаты

3 блока

Почему существующие оценки продуктивности ненадёжны

Фрагмент из раздела отчета

  • Спонсорство поставщиками (GitHub Copilot, Sourcegraph Cody) смещает выборку и метрики в пользу демонстрации выгод.
  • Метрики «количества коммитов/PR» без учета размера и качества задач создают ложное ощущение роста производительности.
  • Оценки на greenfield-проектах и учебных заданиях завышают эффект: LLM быстро генерируют boilerplate, но редко работают в условиях зрелых корпоративных кодовых баз.
  • Опросы самооценки продуктивности неточны; их лучше дополнять объективными показателями и фокусом на well-being/удовлетворенность.

Методология исследования Stanford SEP

Фрагмент из раздела отчета

  • Доступ к приватным репозиториям: команды-партнёры подключали git-историю, что позволяло учитывать реальный контекст задач и архитектурные ограничения.
  • Экспертное оценивание кода: 10–15 архитекторов ставили баллы за качество, поддерживаемость и сложность изменений; оценки хорошо коррелировали между собой и использовались как разметка.
  • Модель для масштабирования ревью: обучили модель, воспроизводящую экспертные оценки с высокой корреляцией, что позволило масштабировать анализ без дорогих ревью.
  • Классификация изменений: все изменения размечались как добавление функционала, удаление, рефакторинг или rework (переделка свежего кода).
  • Продольный анализ 2019–2025: модель применялась ретроспективно, чтобы увидеть влияние COVID, последующего внедрения LLM и эволюции практик по годам.

Ключевые количественные выводы

Фрагмент из раздела отчета

  • Сырой прирост объёма кода после внедрения ИИ: +30–40%, включая полезные изменения и rework.
  • Уточнённый прирост продуктивности (с поправкой на багфиксы): +15–20%.
  • На сложных задачах эффект близок к нулю, дисперсия высока; местами наблюдалось снижение скорости.
  • Зависимость от сложности задачи и зрелости проекта (2×2 матрица):
    • Низкая сложность, greenfield: 30–40% выгода.
    • Низкая сложность, brownfield: 15–20% выгода.
    • Высокая сложность, greenfield: 10–15% выгода.
    • Высокая сложность, brownfield: 0–10%, иногда убыток.
  • Языковые различия: популярные языки дают более высокую эффективность; эзотерические — ниже.
  • Эффект падает логарифмически с ростом размера кодовой базы: контекстные ограничения LLM и высокий coupling повышают шум подсказок.
Подробности из отчетаПоказать

Программа Software Engineering Productivity (SEP) Стэнфордского университета анализирует, как генеративный ИИ и ассистенты меняют повседневную инженерную практику. Отчет 2025 года объединяет телеметрию частных репозиториев, опросы и экспертные ревью, чтобы отделить реальный эффект AI-инструментов от иллюзий «роста output».

Почему существующие оценки продуктивности ненадёжны

  • Спонсорство поставщиками (GitHub Copilot, Sourcegraph Cody) смещает выборку и метрики в пользу демонстрации выгод.
  • Метрики «количества коммитов/PR» без учета размера и качества задач создают ложное ощущение роста производительности.
  • Оценки на greenfield-проектах и учебных заданиях завышают эффект: LLM быстро генерируют boilerplate, но редко работают в условиях зрелых корпоративных кодовых баз.
  • Опросы самооценки продуктивности неточны; их лучше дополнять объективными показателями и фокусом на well-being/удовлетворенность.

Методология исследования Stanford SEP

  • Доступ к приватным репозиториям: команды-партнёры подключали git-историю, что позволяло учитывать реальный контекст задач и архитектурные ограничения.
  • Экспертное оценивание кода: 10–15 архитекторов ставили баллы за качество, поддерживаемость и сложность изменений; оценки хорошо коррелировали между собой и использовались как разметка.
  • Модель для масштабирования ревью: обучили модель, воспроизводящую экспертные оценки с высокой корреляцией, что позволило масштабировать анализ без дорогих ревью.
  • Классификация изменений: все изменения размечались как добавление функционала, удаление, рефакторинг или rework (переделка свежего кода).
  • Продольный анализ 2019–2025: модель применялась ретроспективно, чтобы увидеть влияние COVID, последующего внедрения LLM и эволюции практик по годам.

Ключевые количественные выводы

  • Сырой прирост объёма кода после внедрения ИИ: +30–40%, включая полезные изменения и rework.
  • Уточнённый прирост продуктивности (с поправкой на багфиксы): +15–20%.
  • На сложных задачах эффект близок к нулю, дисперсия высока; местами наблюдалось снижение скорости.
  • Зависимость от сложности задачи и зрелости проекта (2×2 матрица):
    • Низкая сложность, greenfield: 30–40% выгода.
    • Низкая сложность, brownfield: 15–20% выгода.
    • Высокая сложность, greenfield: 10–15% выгода.
    • Высокая сложность, brownfield: 0–10%, иногда убыток.
  • Языковые различия: популярные языки дают более высокую эффективность; эзотерические — ниже.
  • Эффект падает логарифмически с ростом размера кодовой базы: контекстные ограничения LLM и высокий coupling повышают шум подсказок.