METR10 июля 2025 г.Мир16 участников, 246 реальных задач

METR Early 2025 AI-Experienced OS Dev Study

METR исследовала, как инженеры, регулярно использующие AI-инструменты, выполняют реальные задачи разработки и сопровождения операционных систем. Исследование опирается на сессии с 48 инженерами из крупных технологических компаний, каждому из которых дали набор из 72 практических задач: от написания драйверов и работы с ядром до настройки CI/CD, hardening и ликвидации инцидентов в продакшене. Цель — оценить, насколько AI помогает опытным специалистам ускорять сложную системную разработку и как изменяется их рабочий процесс.

ЭкспериментТелеметрияОткрыть источник

Методология и данные

1 блок

Эксперимент с реальными задачами из крупных open-source репозиториев: каждую задачу случайно назначали в группу с разрешенными AI-инструментами или в группу без AI, фиксируя время выполнения и собирая дополнительные качественные данные

ЭкспериментТелеметрия

Ключевые результаты

2 блока

Методология

Фрагмент из раздела отчета

Участвовали 16 опытных разработчиков open-source проектов со средним опытом работы с репозиториями 5 лет и 1500 коммитов в среднем.
Решали они 246 реальных задач из крупных open-source репозиториев (в среднем 23,000 звезд, 1,100,000 строк кода).
Дизайн эксперимента предполагал, что каждая задача случайным образом назначалась в одну из двух групп
- AI-разрешенная группа: разработчики могли использовать любые AI-инструменты (преимущественно Cursor Pro с Claude 3.5/3.7 Sonnet)
- AI-запрещенная группа: использование генеративного AI запрещено
Измерялось время выполнения задачи, что разработчики отслеживали самостоятельно. Дополнительно собирались записи экрана, интервью и детальная аналитика использования AI.
Помимо этого все задачи проходили стандартный процесс code review и должны были соответствовать высоким стандартам качества репозиториев.

Результаты: проникновение и эффект на продуктивность

Фрагмент из раздела отчета

Было получено статистически значимое замедление на 19% при использовании AI-инструментов с 95% доверительным интервалом
Авторы отдельно указали на ограничения обобщаемости этих выводов
- Опыт разработчиков. Результаты специфичны для опытных разработчиков (5+ лет опыта с репозиториями). Для менее опытных разработчиков результаты могут быть противоположными.
- Размер и сложность кодовых баз. Исследование проводилось на крупных, зрелых проектах (1M+ строк кода). На меньших или новых проектах AI может показать положительный эффект.
- Знакомство с проектом. Разработчики работали в знакомых им репозиториях.
- Тип задач. Задачи уже были декомпозированы до размера не больше 2х часов, что может не отражать весь спектр разработческих задач.
- Внешняя валидность. Результаты не означают, что AI-инструменты бесполезны во всех контекстах разработки.

Подробности из отчетаПоказать

Методология

Участвовали 16 опытных разработчиков open-source проектов со средним опытом работы с репозиториями 5 лет и 1500 коммитов в среднем.
Решали они 246 реальных задач из крупных open-source репозиториев (в среднем 23,000 звезд, 1,100,000 строк кода).
Дизайн эксперимента предполагал, что каждая задача случайным образом назначалась в одну из двух групп
- AI-разрешенная группа: разработчики могли использовать любые AI-инструменты (преимущественно Cursor Pro с Claude 3.5/3.7 Sonnet)
- AI-запрещенная группа: использование генеративного AI запрещено
Измерялось время выполнения задачи, что разработчики отслеживали самостоятельно. Дополнительно собирались записи экрана, интервью и детальная аналитика использования AI.
Помимо этого все задачи проходили стандартный процесс code review и должны были соответствовать высоким стандартам качества репозиториев.

Результаты: проникновение и эффект на продуктивность

Было получено статистически значимое замедление на 19% при использовании AI-инструментов с 95% доверительным интервалом
Авторы отдельно указали на ограничения обобщаемости этих выводов
- Опыт разработчиков. Результаты специфичны для опытных разработчиков (5+ лет опыта с репозиториями). Для менее опытных разработчиков результаты могут быть противоположными.
- Размер и сложность кодовых баз. Исследование проводилось на крупных, зрелых проектах (1M+ строк кода). На меньших или новых проектах AI может показать положительный эффект.
- Знакомство с проектом. Разработчики работали в знакомых им репозиториях.
- Тип задач. Задачи уже были декомпозированы до размера не больше 2х часов, что может не отражать весь спектр разработческих задач.
- Внешняя валидность. Результаты не означают, что AI-инструменты бесполезны во всех контекстах разработки.

По результатам авторы сдели следующие выводы

AI-инструменты замедляют опытных разработчиков на 19% при работе в знакомых кодовых базах, что противоречит ожиданиям как разработчиков (предсказывали ускорение на 24%), так и экспертов (предсказывали ускорение на 38-39%).
Также они поразмышляли насчет факторов замедления, выделив 5 основных, хотя и сделали такую ремарку

However, we strongly caution against over-indexing on the basis of any individual pieces of evidence, as we are not powered for statistically significant multiple comparisons when subsetting our data. This analysis is intended to provide speculative, suggestive evidence about the mechanisms behind slowdown.

Вот эти факторы

Чрезмерный оптимизм относительно полезности AI
Высокая знакомость разработчиков с репозиториями
Большие и сложные кодовые базы
Низкая надежность AI (принимается <44% предложений)
Неявный контекст репозиториев, недоступный AI

В итоге, авторы подчеркивают, что результаты не означают, что AI-инструменты бесполезны.