3 исследования
METR (Model Evaluation & Threat Research)
METR (Model Evaluation & Threat Research) — исследовательская некоммерческая организация, которая оценивает frontier AI‑модели и их автономные возможности, чтобы понимать риски и поддерживать ответственные решения о разработке и масштабировании.
Чем занимается (релевантно для software engineering)
- Разрабатывает и запускает оценки автономного выполнения «существенных» задач, включая исследования и разработку приложений.
- Измеряет «time horizon» — какую длительность задач (в пересчёте на время человека‑профессионала) AI‑агенты способны завершать; публикует данные и код.
- Проводит полевые исследования влияния AI‑инструментов на продуктивность разработчиков: RCT на опытных open‑source разработчиках в их собственных репозиториях.
- Создаёт бенчмарки для AI R&D/инженерных задач (например, RE‑Bench) со сравнением моделей и людей и публикацией протоколов/транскриптов запусков.
- Делает опросы/elicitation и форсайт: пилотные исследования с экспертами и «суперпрогнозистами» о сценариях ускорения AI‑R&D и возможных последствиях.
Миссия
Разрабатывать научные методы оценки катастрофических рисков, связанных с автономными возможностями AI‑систем, и помогать принимать решения об их разработке.
Управление и независимость
- Руководство: Founder/CEO; на сайте также выделены Policy Director и команда технических, policy и operations сотрудников.
- Надзор: среди advisors отмечены board members.
- Финансирование: METR указывает, что финансируется пожертвованиями и не принимает деньги от AI‑компаний (при этом может использовать предоставленные compute credits).
Почему METR полезна при оценке влияния AI на разработку ПО
- Фокус на измеримых эффектах (длинные задачи, реальные репозитории, сравнение с людьми), а не только на «бенчмарках ради бенчмарков».
- Перевод результатов оценок в язык управления рисками масштабирования (threshold‑подходы, RSP‑логика).
- Позиция «третьей стороны»: публикация исследований и оценок, работа на стыке инженеринга, исследований и policy.