Start Debugging

Как на самом деле выглядят 878 PR Copilot Coding Agent в dotnet/runtime

Команда .NET делится десятью месяцами реальных данных по запуску GitHub Copilot Coding Agent в dotnet/runtime: 878 PR, коэффициент слияния 67,9% и чёткие уроки о том, где разработка с помощью ИИ помогает и где всё ещё не дотягивает.

Copilot Coding Agent от GitHub работает в репозитории dotnet/runtime с мая 2025 года. Глубокий пост Стивена Тоуба охватывает десять месяцев реального использования: 878 отправленных PR, 535 слитых, коэффициент слияния 67,9% и коэффициент отката всего 0,6%.

Где цифры становятся интересными

Не все размеры PR равны. Маленькие, сфокусированные изменения преуспевают с более высокими показателями:

Размер PR (изменённых строк)Коэффициент успеха
1-10 строк80,0%
11-50 строк76,9%
101-500 строк64,0%
1 001+ строка71,9%

Спад на 101-500 строках отражает границу, где механические задачи смешиваются с архитектурными. Работа по уборке и удалению лидирует среди категорий с 84,7% успеха, за ней следует добавление тестов с 75,6%. Это задачи с чёткими критериями успеха, без неоднозначности в отношении намерения и с ограниченным радиусом воздействия.

Инструкции — это вся игра

Первый месяц команды дал коэффициент слияния 41,7% без значимой конфигурации. После написания надлежащего файла инструкций для агента — с указанием команд сборки, шаблонов тестирования и архитектурных границ — коэффициент поднялся до 69% за недели и в конечном итоге достиг 72%.

Минимальная, но эффективная настройка выглядит так:

## Build
Run `./build.sh clr -subset clr.runtime` to build the runtime.
Run `./build.sh -test -subset clr.tests` to run tests.

## Testing Patterns
New public APIs require tests in src/tests/.
Use existing helpers in XUnitHelper rather than writing from scratch.

## Scope Limits
Do not change public API surface without a linked tracking issue.
Native (C++) components require Windows CI -- avoid if not needed.

Инструкции не должны быть длинными. Они должны быть конкретными.

Пропускная способность review становится узким местом

Показательное наблюдение из данных: один разработчик мог поставить в очередь девять существенных PR с телефона во время поездки, генерируя 5-9 часов работы по обзору для команды. Генерация PR масштабировалась быстрее, чем обзор PR. Эта асимметрия побудила параллельные инвестиции в обзор кода с помощью ИИ для поглощения нового объёма. Этот шаблон будет повторяться в любой команде, внедряющей агент в масштабе.

Что CCA не заменяет

Архитектурные решения, кроссплатформенное рассуждение и оценочные суждения о форме API последовательно требовали человеческого вмешательства. Слитый код CCA разбивается как 65,7% тестового кода против 49,9% у человеческих контрибьюторов. Он сильнее всего в заполнении механической работы, которую люди рутинно отодвигают на задний план.

Более широкая валидация охватила семь .NET-репозиториев (aspire, roslyn, aspnetcore, efcore, extensions и другие): 1 885 слитых PR из 2 963 отправленных, коэффициент успеха 68,6%. Шаблон держится в масштабе.

Для команд, думающих о внедрении Copilot Coding Agent: начните с небольших задач уборки или тестов, напишите файл инструкций раньше всего остального, и планируйте, что пропускная способность обзора станет следующим ограничением.

Полный анализ на devblogs.microsoft.com.

< Назад