Авторы исследования
Stanford University
22 апреля 2026 г.МирОколо 6 000 реальных сессий coding agents из 200+ публичных GitHub-репозиториев; 63 000+ prompts и 355 000+ tool calls

SWE-chat: Coding Agent Interactions From Real Users in the Wild

SWE-chat — первый крупный датасет реальных сессий coding agents, собранный из работы open-source разработчиков “in the wild”. Он показывает, что агентные инструменты уже активно используются в настоящих репозиториях, но их вклад в итоговый код и качество результата существенно отличаются от того, что видно в curated benchmark'ах.

Анализ телеметрииСтатистический анализОткрыть источник

Методология и данные

1 блок

Наблюдательный анализ реальных agent sessions: Entire.io CLI связывает transcripts, tool calls, git diffs, checkpoints и commits с line-level human/agent code attribution.

Анализ телеметрииСтатистический анализ

Ключевые результаты

4 блока

Что измеряли

Фрагмент из раздела отчета

Авторы собрали живой датасет взаимодействий разработчиков с coding agents: около 6 000 сессий, более 63 000 пользовательских prompts и 355 000 tool calls из 200+ публичных GitHub-репозиториев. Каждая сессия связывает transcript агента с git-историей и позволяет определить, какие строки итогового кода написал человек, а какие — агент.

Методология

Фрагмент из раздела отчета

Данные собираются через open-source инструмент Entire.io CLI: разработчики добровольно подключают логирование, а pipeline автоматически связывает agent logs, git diffs, checkpoints и commits. Это не синтетический benchmark, а наблюдение реальных workflows, дополненное разметкой intent, user pushback, code authorship и метриками эффективности.

Ключевые результаты

Фрагмент из раздела отчета

Паттерны использования оказались bimodal: в 41% сессий агенты пишут почти весь committed code (“vibe coding”), а в 23% сессий человек пишет весь код сам. При этом только 44% agent-produced code сохраняется в пользовательских commit'ах, а в 44% interaction turns пользователи дают pushback: исправляют, прерывают или сообщают о сбое агентного решения.

Риски качества и безопасности

Фрагмент из раздела отчета

Авторы фиксируют, что agent-authored code в естественных условиях чаще связан с проблемами качества и безопасности, чем код, написанный человеком. Это делает SWE-chat важным противовесом leaderboard-метрикам: агент может успешно пройти задачу в benchmark'е, но в реальной сессии требовать значительной человеческой коррекции.

Подробности из отчетаПоказать

SWE-chat — первый крупный датасет реальных сессий coding agents, собранный из работы open-source разработчиков “in the wild”. Он показывает, что агентные инструменты уже активно используются в настоящих репозиториях, но их вклад в итоговый код и качество результата существенно отличаются от того, что видно в curated benchmark'ах.

Что измеряли

Авторы собрали живой датасет взаимодействий разработчиков с coding agents: около 6 000 сессий, более 63 000 пользовательских prompts и 355 000 tool calls из 200+ публичных GitHub-репозиториев. Каждая сессия связывает transcript агента с git-историей и позволяет определить, какие строки итогового кода написал человек, а какие — агент.

Методология

Данные собираются через open-source инструмент Entire.io CLI: разработчики добровольно подключают логирование, а pipeline автоматически связывает agent logs, git diffs, checkpoints и commits. Это не синтетический benchmark, а наблюдение реальных workflows, дополненное разметкой intent, user pushback, code authorship и метриками эффективности.

Ключевые результаты

Паттерны использования оказались bimodal: в 41% сессий агенты пишут почти весь committed code (“vibe coding”), а в 23% сессий человек пишет весь код сам. При этом только 44% agent-produced code сохраняется в пользовательских commit'ах, а в 44% interaction turns пользователи дают pushback: исправляют, прерывают или сообщают о сбое агентного решения.

Риски качества и безопасности

Авторы фиксируют, что agent-authored code в естественных условиях чаще связан с проблемами качества и безопасности, чем код, написанный человеком. Это делает SWE-chat важным противовесом leaderboard-метрикам: агент может успешно пройти задачу в benchmark'е, но в реальной сессии требовать значительной человеческой коррекции.

Практический вывод

SWE-chat сдвигает оценку coding agents от “решил/не решил задачу” к анализу полного workflow: сколько подсказок, tool calls, переписываний, corrections и surviving code нужно для полезного результата. Для команд это аргумент в пользу observability, human review и метрик, которые измеряют не только output, но и стоимость доведения агентного кода до production-ready состояния.