Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces
Terminal-Bench 2.0 оценивает AI-агентов в командной строке: не только “написать патч”, а выполнить длинную реалистичную задачу в terminal environment с файлами, инструментами, shell-командами и проверками. Это важный benchmark для agentic AI, потому что многие production workflows проходят именно через CLI.
Методология и данные
1 блокОтобранный benchmark в терминальных окружениях: уникальные окружения, написанные людьми решения и исчерпывающие проверочные тесты для каждой задачи.
Ключевые результаты
4 блокаЧто измеряли
Фрагмент из раздела отчета
Бенчмарк включает 89 hard tasks в computer terminal environments, вдохновлённых реальными workflows. Каждая задача имеет уникальное окружение, human-written solution и comprehensive tests для автоматической проверки результата.
Методология
Фрагмент из раздела отчета
Задачи подобраны так, чтобы быть достаточно сложными для frontier models и agents. Агент должен работать в терминальном окружении: исследовать файлы, запускать команды, менять артефакты и проходить тесты. Это проверяет не только reasoning или code generation, но и tool use, state management и способность завершать long-horizon workflow.
Ключевой результат
Фрагмент из раздела отчета
Авторы показывают, что frontier models and agents набирают менее 65% на Terminal-Bench 2.0. Это означает, что даже сильные агенты ещё не надежны в hard realistic terminal tasks, особенно когда решение требует последовательных действий и контроля окружения.
Почему это важно для AI4SDLC
Фрагмент из раздела отчета
Terminal workflows близки к реальной разработке, DevOps и data/ML engineering: установка зависимостей, запуск тестов, работа с файлами, диагностика ошибок и итеративное исправление. Поэтому benchmark дополняет SWE-bench-подобные задачи и лучше показывает, насколько агент готов к автономной работе в рабочей среде.
Подробности из отчетаПоказатьСкрыть
Terminal-Bench 2.0 оценивает AI-агентов в командной строке: не только “написать патч”, а выполнить длинную реалистичную задачу в terminal environment с файлами, инструментами, shell-командами и проверками. Это важный benchmark для agentic AI, потому что многие production workflows проходят именно через CLI.
Что измеряли
Бенчмарк включает 89 hard tasks в computer terminal environments, вдохновлённых реальными workflows. Каждая задача имеет уникальное окружение, human-written solution и comprehensive tests для автоматической проверки результата.
Методология
Задачи подобраны так, чтобы быть достаточно сложными для frontier models и agents. Агент должен работать в терминальном окружении: исследовать файлы, запускать команды, менять артефакты и проходить тесты. Это проверяет не только reasoning или code generation, но и tool use, state management и способность завершать long-horizon workflow.
Ключевой результат
Авторы показывают, что frontier models and agents набирают менее 65% на Terminal-Bench 2.0. Это означает, что даже сильные агенты ещё не надежны в hard realistic terminal tasks, особенно когда решение требует последовательных действий и контроля окружения.
Почему это важно для AI4SDLC
Terminal workflows близки к реальной разработке, DevOps и data/ML engineering: установка зависимостей, запуск тестов, работа с файлами, диагностика ошибок и итеративное исправление. Поэтому benchmark дополняет SWE-bench-подобные задачи и лучше показывает, насколько агент готов к автономной работе в рабочей среде.
Практический вывод
Для внедрения coding agents важно оценивать не только patch correctness, но и CLI competence: умеет ли агент безопасно пользоваться инструментами, понимать вывод команд, восстанавливаться после ошибок и не разрушать окружение. Terminal-Bench 2.0 даёт измеримую основу для такой оценки.