3 исследования

METR (Model Evaluation & Threat Research)

METR (Model Evaluation & Threat Research) — исследовательская некоммерческая организация, которая оценивает frontier AI‑модели и их автономные возможности, чтобы понимать риски и поддерживать ответственные решения о разработке и масштабировании.

Чем занимается (релевантно для software engineering)

  • Разрабатывает и запускает оценки автономного выполнения «существенных» задач, включая исследования и разработку приложений.
  • Измеряет «time horizon» — какую длительность задач (в пересчёте на время человека‑профессионала) AI‑агенты способны завершать; публикует данные и код.
  • Проводит полевые исследования влияния AI‑инструментов на продуктивность разработчиков: RCT на опытных open‑source разработчиках в их собственных репозиториях.
  • Создаёт бенчмарки для AI R&D/инженерных задач (например, RE‑Bench) со сравнением моделей и людей и публикацией протоколов/транскриптов запусков.
  • Делает опросы/elicitation и форсайт: пилотные исследования с экспертами и «суперпрогнозистами» о сценариях ускорения AI‑R&D и возможных последствиях.

Миссия

Разрабатывать научные методы оценки катастрофических рисков, связанных с автономными возможностями AI‑систем, и помогать принимать решения об их разработке.

Управление и независимость

  • Руководство: Founder/CEO; на сайте также выделены Policy Director и команда технических, policy и operations сотрудников.
  • Надзор: среди advisors отмечены board members.
  • Финансирование: METR указывает, что финансируется пожертвованиями и не принимает деньги от AI‑компаний (при этом может использовать предоставленные compute credits).

Почему METR полезна при оценке влияния AI на разработку ПО

  1. Фокус на измеримых эффектах (длинные задачи, реальные репозитории, сравнение с людьми), а не только на «бенчмарках ради бенчмарков».
  2. Перевод результатов оценок в язык управления рисками масштабирования (threshold‑подходы, RSP‑логика).
  3. Позиция «третьей стороны»: публикация исследований и оценок, работа на стыке инженеринга, исследований и policy.

Исследования