METR24 февраля 2026 г.Мир57 developers, 143 repos, 800+ tasks

We are Changing our Developer Productivity Experiment Design

METR в Uplift Update пересматривает дизайн эксперимента по продуктивности разработчиков после выявления эффектов селекции задач (источник).

Это важный кейс того, как меняется оценка AI-эффекта, когда методология становится строже к bias-рискам.

ЭкспериментСтатистикаКейс-стадиОткрыть источник

Срез исследования

5 фактов
57
Разработчиков
143
Репозиториев
800+
Задач
AI-allowed vs AI-disallowed
Дизайн
24 февраля 2026
Дата

Методология

3 блока

Randomized task-level дизайн

Как собирали и структурировали данные

AI allowed/disallowed

Эксперимент сравнивает выполнение задач в условиях разрешенного и запрещенного использования AI, что позволяет отделять эффект инструмента от внешних факторов.

Контроль selection bias

Как собирали и структурировали данные

redesign due to bias

Авторы отдельно корректируют дизайн, поскольку состав задач и поведение участников могли искажать ранние оценки замедления/ускорения.

Repository-real setting

Как собирали и структурировали данные

143 repos800+ tasks

Исследование проводится на реальных репозиториях, что повышает прикладную ценность выводов относительно synthetic benchmark-ов.

Ключевые результаты

3 вывода

Ранний slowdown сигнал нестабилен

Что важно для engineering-практики

design-sensitive outcome

METR показывает, что ранние выводы о slowdown сильно чувствительны к дизайну эксперимента и отбору задач.

Возможен speedup в поздних оценках

Что важно для engineering-практики

possible uplift

После корректировок дизайн начинает показывать признаки положительного эффекта, но авторы подчеркивают широкую неопределенность.

Методология критичнее headline

Что важно для engineering-практики

causal caution

Ключевой вклад публикации — не одно число uplift, а прозрачная демонстрация того, как bias меняет интерпретацию результата.

Риски и интерпретация

3 акцента

Измеряйте task selection

Как применять выводы в командах

selection controls

Команды, которые меряют AI-эффект внутри компании, должны отдельно контролировать сложность и типы задач в экспериментах.

Нужны повторные раунды

Как применять выводы в командах

iterative experimentation

Один замер редко достаточен: по мере адаптации процессов и инструментов эффект может меняться во времени.

Сочетайте квант и квал

Как применять выводы в командах

metrics + review

Помимо числовых метрик полезно разбирать кейсы по качеству решений, rework и ошибкам, чтобы не переоценивать throughput.

Практический итог

METR Uplift Update показывает, что оценка AI-продуктивности сильно зависит от качества экспериментального дизайна.

Практически это означает: прежде чем масштабировать AI-практики, стоит инвестировать в корректную causal-методологию измерений.

Подробности из отчетаПоказать

METR пересмотрел дизайн эксперимента по продуктивности, чтобы снизить искажения от selection effects.

Контекст

  • Выборка: 57 разработчиков, 143 репозитория, 800+ задач.
  • Сравнение: AI-allowed vs AI-disallowed выполнение задач.

Что изменили

  • Обновили протокол, поскольку ранние оценки могли быть искажены отбором задач и неоднородностью сценариев.

Ключевой вывод

  • Поздние оценки показывают возможный speedup относительно раннего slowdown-сигнала, но остаются заметные источники неопределенности.

Практический вывод

К оценке AI-эффекта в инженерии нужно подходить как к повторяемому экспериментальному процессу, а не как к разовому измерению.