Авторы исследования

12 июня 2026 г.МирBenchmark для оценки кодовых агентов, которые решают реальные задачи разработки ПО через диалог с пользователем

Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents

Dialogue SWE-Bench показывает, что качество coding agent нельзя сводить к способности автономно закрыть issue: в реальном использовании агент должен вести диалог, задавать уточняющие вопросы, понимать intent пользователя и поддерживать корректный conversational workflow.

ЭкспериментСтатистический анализОткрыть источник

Методология и данные

1 блок

Автоматический benchmark с симулятором пользователя на основе персон, оценками качества диалога и базовым агентом со схемным управлением.

ЭкспериментСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Авторы предлагают benchmark для dialogue-driven coding agents: агент решает реальные software engineering problems через диалог с user simulator. Это расширяет классическую постановку SWE-Bench, где задача обычно дана агенту полностью и upfront.

Методология

Фрагмент из раздела отчета

Для оценки используется persona-grounded user simulator и automatic dialogue-quality evaluations. Симулятор поддерживает задачу как пользователь с определённой персоной и контекстом, а агент должен не только менять код, но и вести полезное взаимодействие: уточнять, объяснять, не терять контекст и двигаться к решению.

Schema-guided agent

Фрагмент из раздела отчета

Авторы также предлагают schema-guided agent, который структурирует диалоговые действия и улучшает способность off-the-shelf coding agents работать в интерактивной постановке. По результатам paper, такой подход улучшает сильные baselines на 3–14%.

Ключевой вывод

Фрагмент из раздела отчета

Лучшие coding models не всегда оказываются лучшими dialogue models. Это важный результат: performance на автономных code benchmarks может плохо предсказывать качество agentic assistant в реальной работе, где пользователь задаёт уточнения, меняет требования и ожидает полезного диалога.

Подробности из отчетаПоказать

Что измеряли

Методология

Schema-guided agent

Ключевой вывод

Практический вывод

Для оценки coding agents нужны отдельные метрики dialogue capability: качество вопросов, точность follow-up, сохранение intent, объяснимость и способность корректировать план после user feedback. Без этого можно выбрать модель, которая хорошо пишет патчи, но плохо работает как interactive teammate.