Авторы исследования

17 января 2026 г.Мир89 сложных задач в средах компьютерного терминала, вдохновлённых реальными рабочими процессами

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

Terminal-Bench 2.0 оценивает AI-агентов в командной строке: не только “написать патч”, а выполнить длинную реалистичную задачу в terminal environment с файлами, инструментами, shell-командами и проверками. Это важный benchmark для agentic AI, потому что многие production workflows проходят именно через CLI.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Отобранный benchmark в терминальных окружениях: уникальные окружения, написанные людьми решения и исчерпывающие проверочные тесты для каждой задачи.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Бенчмарк включает 89 hard tasks в computer terminal environments, вдохновлённых реальными workflows. Каждая задача имеет уникальное окружение, human-written solution и comprehensive tests для автоматической проверки результата.

Методология

Фрагмент из раздела отчета

Задачи подобраны так, чтобы быть достаточно сложными для frontier models и agents. Агент должен работать в терминальном окружении: исследовать файлы, запускать команды, менять артефакты и проходить тесты. Это проверяет не только reasoning или code generation, но и tool use, state management и способность завершать long-horizon workflow.

Ключевой результат

Фрагмент из раздела отчета

Авторы показывают, что frontier models and agents набирают менее 65% на Terminal-Bench 2.0. Это означает, что даже сильные агенты ещё не надежны в hard realistic terminal tasks, особенно когда решение требует последовательных действий и контроля окружения.

Почему это важно для AI4SDLC

Фрагмент из раздела отчета

Terminal workflows близки к реальной разработке, DevOps и data/ML engineering: установка зависимостей, запуск тестов, работа с файлами, диагностика ошибок и итеративное исправление. Поэтому benchmark дополняет SWE-bench-подобные задачи и лучше показывает, насколько агент готов к автономной работе в рабочей среде.

Подробности из отчетаПоказать

Что измеряли

Методология

Ключевой результат

Почему это важно для AI4SDLC

Практический вывод

Для внедрения coding agents важно оценивать не только patch correctness, но и CLI competence: умеет ли агент безопасно пользоваться инструментами, понимать вывод команд, восстанавливаться после ошибок и не разрушать окружение. Terminal-Bench 2.0 даёт измеримую основу для такой оценки.