AI Research 2025

METR (Model Evaluation & Threat Research) — исследовательская некоммерческая организация, которая оценивает frontier AI‑модели и их автономные возможности, чтобы понимать риски и поддерживать ответственные решения о разработке и масштабировании.

Чем занимается (релевантно для software engineering)

Разрабатывает и запускает оценки автономного выполнения «существенных» задач, включая исследования и разработку приложений.
Измеряет «time horizon» — какую длительность задач (в пересчёте на время человека‑профессионала) AI‑агенты способны завершать; публикует данные и код.
Проводит полевые исследования влияния AI‑инструментов на продуктивность разработчиков: RCT на опытных open‑source разработчиках в их собственных репозиториях.
Создаёт бенчмарки для AI R&D/инженерных задач (например, RE‑Bench) со сравнением моделей и людей и публикацией протоколов/транскриптов запусков.
Делает опросы/elicitation и форсайт: пилотные исследования с экспертами и «суперпрогнозистами» о сценариях ускорения AI‑R&D и возможных последствиях.

Миссия

Разрабатывать научные методы оценки катастрофических рисков, связанных с автономными возможностями AI‑систем, и помогать принимать решения об их разработке.

Управление и независимость

Руководство: Founder/CEO; на сайте также выделены Policy Director и команда технических, policy и operations сотрудников.
Надзор: среди advisors отмечены board members.
Финансирование: METR указывает, что финансируется пожертвованиями и не принимает деньги от AI‑компаний (при этом может использовать предоставленные compute credits).

Почему METR полезна при оценке влияния AI на разработку ПО

Фокус на измеримых эффектах (длинные задачи, реальные репозитории, сравнение с людьми), а не только на «бенчмарках ради бенчмарков».
Перевод результатов оценок в язык управления рисками масштабирования (threshold‑подходы, RSP‑логика).
Позиция «третьей стороны»: публикация исследований и оценок, работа на стыке инженеринга, исследований и policy.

METR (Model Evaluation & Threat Research)

Чем занимается (релевантно для software engineering)

Миссия

Управление и независимость

Почему METR полезна при оценке влияния AI на разработку ПО

Исследования

Many SWE-bench-Passing PRs Would Not Be Merged into Main

We are Changing our Developer Productivity Experiment Design

METR Early 2025 AI-Experienced OS Dev Study