Xiaomi HarnessX: Китайцы научили ИИ чинить себя на лету — маленькие модели в шоке от +44% прироста

Корпоративные ИИ-агенты берутся за всё более сложные и долгосрочные задачи. Но их потенциал часто упирается в обвязку — тот самый программный каркас, который соединяет мозг в виде LLM с внешним миром. Проблема в том, что сегодня эта обвязка — статичная и handmade. Улучшать её приходится вручную, а данные о выполнении задач просто пропадают. Инженеры Xiaomi решили, что так дальше нельзя, и создали HarnessX — фреймворк, который делает обвязку самостоятельным объектом и автоматически допиливает её код. В реальных бизнес-приложениях такая автоадаптация позволяет ИИ подстраиваться под специфику задачи на лету. Тесты показали впечатляющий прирост производительности в софтверной инженерии и веб-взаимодействиях. Результаты намекают: масштабирование модели — не единственный путь к супер-ИИ. А для небольших моделей — возможно, даже не лучший. Эволюция обвязки от HarnessX дала в среднем +14,5% прироста на 15 комбинациях модель-бенчмарк. А для открытой Qwen3.5-9B — целых +44% на задачах воплощённого планирования.

Проблемы инженерии обвязки

В ИИ-приложениях возможности фундаментальной модели сильно зависят от того, что её окружает. Обвязка выполняет роль операционного слоя: превращает сырой вывод модели в структурированные, исполнимые действия агента. Сюда входят промпты, интеграции внешних инструментов, управление памятью и потоки управления — всё, что диктует агенту, как наблюдать за окружением, рассуждать над задачей и действовать.

Когда корпоративные агенты берут на себя более сложные и длительные процессы, инженерия обвязки становится фундаментальной частью разработки ИИ. Но, несмотря на важность, эта область всё ещё далека от зрелой инженерной дисциплины. И тут три ключевые проблемы.

Первая: обвязка статична и собирается вручную. Стоит сменить фундаментальную модель, добавить новый инструмент или перейти в другую операционную среду — приходится переписывать код вручную, под конкретный случай. Традиционные обвязки не умеют самостоятельно учиться на прошлом опыте и улучшаться.

Вторая: почти все существующие обвязки страдают от архитектурной запутанности. Шаблоны промптов, обёртки инструментов, политики повторных попыток и управление памятью намертво впечатаны в одни и те же участки кода. Дёрнешь один компонент — молча сломаются другие. Попытка переиспользовать обвязку в другом бизнес-контексте превращается в тупое копирование кода, а не в чистую модульную композицию.

Третья: обвязка и фундаментальная модель оптимизируются изолированно друг от друга. Когда инженеры гоняют тесты, чтобы улучшить обвязку, сгенерированные треки выполнения обычно выбрасывают, а не используют как тренировочные данные для модели. В итоге апгрейд модели не тянет за собой улучшение обвязки — возникает бутылочное горлышко, и команды не выжимают из операционных данных агента и половины ценности.

HarnessX: автономная фабрика для ИИ-агентов

HarnessX решает инженерные проблемы ручной разработки обвязки с помощью того, что исследователи называют «единой фабрикой обвязок».

Ключевая инновация — относиться к обвязке как к «объекту первого класса». На языке разработки это значит: обвязка — независимо сериализуемая, модульная и заменяемая сущность. Разделив конфигурацию модели (какая именно ИИ-модель работает) и конфигурацию обвязки, инженеры могут без проблем менять, адаптировать и развивать каркас, не трогая саму модель.

HarnessX раскладывает поведение агента на разные компоненты: сборка контекста, управление памятью, экосистема инструментов, поток управления и наблюдаемость. Каждое конкретное поведение реализовано как «процессор», который втыкается в точные хуки жизненного цикла обвязки. Такая модульная структура позволяет заменять, добавлять или удалять эти процессоры, не ломая всё остальное.

Чтобы автоматизировать оптимизацию этой модульной структуры, HarnessX включает AEGIS — движок эволюции на основе треков выполнения. AEGIS рассматривает адаптацию обвязки как задачу обучения с подкреплением (RL) над разными символическими компонентами обвязки.

Формулировка оптимизации обвязки как задачи обучения с подкреплением порождает три патологии, с которыми исследователям пришлось бороться осознанно:

Хак наград: система может найти shortcut к решению, вместо того чтобы реально решить задачу.

Катастрофическое забывание: правка, которая исправляет паттерн отказа в одной области, может молча сломать уже работающий сценарий в другой.

Недостаточное исследование: система может перебирать мелкие правки промптов, вместо того чтобы пробовать структурно новые конфигурации инструментов.

Чтобы предотвратить эти проблемы, AEGIS использует полную наблюдаемость треков и четырёхэтапный конвейер:

Digester: сжимает треки выполнения в структурированные сводки, чтобы выяснить, где агент провалился.

Planner: анализирует эти сводки, позволяя системе исследовать структурные изменения, а не только локальные правки промптов.

Evolver: генерирует правки обвязки на уровне кода и тесты, чтобы убедиться, что они корректно работают перед развёртыванием.

Critic и gate: Critic оценивает правки на предмет хакерства наград, а детерминированный гейт отклоняет любое обновление, которое ухудшает ранее решённую задачу, предотвращая катастрофическое забывание.

HarnessX входит в растущее поле исследований по самоулучшающимся обвязкам, но его отличает коэволюция обвязки и модели.

Исследователи подчёркивают: оптимизация любого компонента по отдельности рано или поздно упирается в потолок. Эволюция только обвязки натыкается на леса, если у базовой модели не хватает способности рассуждать, чтобы использовать новые инструменты. Тренировка только модели упирается в потолок тренировочных сигналов, если обвязка никогда не просит модель применить её продвинутые способности.

HarnessX чередует эволюцию обвязки с тренировкой модели. Треки выполнения, которые генерируются, пока обвязка пытается адаптироваться к задачам, конвертируются в сигналы обучения с подкреплением для фундаментальной модели. Каждый раз, когда обвязка улучшает свою стратегию, модель одновременно учится лучше использовать эту новую стратегию, ломая потолки возможностей традиционной разработки ИИ-агентов.

Эта коэволюция становится возможной благодаря cross-harness GRPO (Group Relative Policy Optimization). GRPO — популярный алгоритм RL, который используется для тренировки моделей рассуждений вроде DeepSeek-R1.

При тонкой настройке модели cross-harness GRPO объединяет траектории выполнения агента для одной и той же задачи на совершенно разных версиях обвязок приложения. Это позволяет базовой модели усваивать высокоуровневые стратегические сдвиги — например, использовать новый API-эндпоинт или управлять бюджетом выполнения, а не просто учиться мелким вариациям формулировок промптов.

HarnessX в действии: промышленные бенчмарки

Чтобы проверить практическую полезность HarnessX, исследователи прогнали его по пяти бенчмаркам