Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents
Dialogue SWE-Bench показывает, что качество coding agent нельзя сводить к способности автономно закрыть issue: в реальном использовании агент должен вести диалог, задавать уточняющие вопросы, понимать intent пользователя и поддерживать корректный conversational workflow.
Методология и данные
1 блокАвтоматический benchmark с симулятором пользователя на основе персон, оценками качества диалога и базовым агентом со схемным управлением.
Ключевые результаты
4 блокаЧто измеряли
Фрагмент из раздела отчета
Авторы предлагают benchmark для dialogue-driven coding agents: агент решает реальные software engineering problems через диалог с user simulator. Это расширяет классическую постановку SWE-Bench, где задача обычно дана агенту полностью и upfront.
Методология
Фрагмент из раздела отчета
Для оценки используется persona-grounded user simulator и automatic dialogue-quality evaluations. Симулятор поддерживает задачу как пользователь с определённой персоной и контекстом, а агент должен не только менять код, но и вести полезное взаимодействие: уточнять, объяснять, не терять контекст и двигаться к решению.
Schema-guided agent
Фрагмент из раздела отчета
Авторы также предлагают schema-guided agent, который структурирует диалоговые действия и улучшает способность off-the-shelf coding agents работать в интерактивной постановке. По результатам paper, такой подход улучшает сильные baselines на 3–14%.
Ключевой вывод
Фрагмент из раздела отчета
Лучшие coding models не всегда оказываются лучшими dialogue models. Это важный результат: performance на автономных code benchmarks может плохо предсказывать качество agentic assistant в реальной работе, где пользователь задаёт уточнения, меняет требования и ожидает полезного диалога.
Подробности из отчетаПоказатьСкрыть
Dialogue SWE-Bench показывает, что качество coding agent нельзя сводить к способности автономно закрыть issue: в реальном использовании агент должен вести диалог, задавать уточняющие вопросы, понимать intent пользователя и поддерживать корректный conversational workflow.
Что измеряли
Авторы предлагают benchmark для dialogue-driven coding agents: агент решает реальные software engineering problems через диалог с user simulator. Это расширяет классическую постановку SWE-Bench, где задача обычно дана агенту полностью и upfront.
Методология
Для оценки используется persona-grounded user simulator и automatic dialogue-quality evaluations. Симулятор поддерживает задачу как пользователь с определённой персоной и контекстом, а агент должен не только менять код, но и вести полезное взаимодействие: уточнять, объяснять, не терять контекст и двигаться к решению.
Schema-guided agent
Авторы также предлагают schema-guided agent, который структурирует диалоговые действия и улучшает способность off-the-shelf coding agents работать в интерактивной постановке. По результатам paper, такой подход улучшает сильные baselines на 3–14%.
Ключевой вывод
Лучшие coding models не всегда оказываются лучшими dialogue models. Это важный результат: performance на автономных code benchmarks может плохо предсказывать качество agentic assistant в реальной работе, где пользователь задаёт уточнения, меняет требования и ожидает полезного диалога.
Практический вывод
Для оценки coding agents нужны отдельные метрики dialogue capability: качество вопросов, точность follow-up, сохранение intent, объяснимость и способность корректировать план после user feedback. Без этого можно выбрать модель, которая хорошо пишет патчи, но плохо работает как interactive teammate.