Китайские учёные научили AI-агентов чинить себя сами — фреймворк Self-Harness поднял производительность до 60%

Давайте начистоту: не каждая компания способна или обязана собирать собственный «фронтирный» языковой модельер, достойный звания искусственного интеллекта. Но вот обуздать ту самую модель — ту систему, что ею рулит, — под свои задачи может и должен практически любой вменяемый бизнес. Звучит красиво, но, как водится, дьявол прячется в деталях. На словах всё просто — на деле приходится часами вылавливать баги вручную, методом тыка и, чего уж греха таить, опираясь на интуицию, а не на систему обратной связи.

С таким подходом угнаться за стремительно обновляющимися LLM практически невозможно. Китайские исследователи из Шанхайской лаборатории искусственного интеллекта решили подойти к вопросу радикально и предложили «Self-Harness» — новую парадигму, в которой агент на базе LLM сам, без человеческого участия, улучшает собственные правила работы. Модель анализирует собственные треки исполнения, выявляет слабые места и вносит правки, заменяя догадки инженеров реальными эмпирическими данными. Звучит как магия? Работает как инженерия.

Такая система самоулучшающихся «упряжек» (harness) позволяет командам разворачивать надёжные кастомные агенты, которые постоянно адаптируют свои протоколы выполнения, чтобы преодолеть конкретные недостатки конкретной модели.

Проблема инженерии упряжки: почему интуиция — зло

Производительность агента на LLM определяется не только его базовой моделью, но и тем, какой окружение его контролирует. Сама «упряжка» — это целый зоопарк компонентов: системные промпты, инструменты, память, правила верификации, политики рантайма, логика оркестрации и процедуры восстановления после сбоев. Звучит как куча мелких деталей, но именно здесь чаще всего и гибнут бедные агенты.

Скажем, агент может доложить об успехе, не потрудившись проверить, действительно ли модель выполнила задачу (например, запустил код, но не проверил тесты). Или же он зациклится, раз за разом повторяя одно и то же неудачное действие. Упряжка же отдувается за перегрузку контекста, когда история взаимодействия разрастается до неприличных размеров. Примеры популярных упряжек — SWE-agent, Claude Code, Codex и OpenHands.

Интуитивно кажется, что главный тормоз — человек: медленно думает, медленно правит. Ханфан Чжан, ведущий автор исследования Self-Harness, в беседе с VentureBeat отметил, что это не совсем так. «Во многих случаях опытный инженер с глубоким знанием предметной области всё ещё способен предложить лучшие изменения, чем LLM на текущий момент». Но проблема не в скорости человека, а в инструментарии. Ручная инженерия упряжки опирается на ad-hoc отладку, а не на систематический, проверяемый цикл обратной связи. «Глубокая проблема в том, что нынешняя парадигма часто лишена систематической обратной связи, — объясняет Чжан. — Многие правки вносятся на основе интуиции, пары подмеченных сбоев или той же ad-hoc отладки».

Сейчас новые модели выходят чуть ли не каждую неделю. Пытаться подкручивать под каждую из них свою упряжку вручную, целиком полагаясь на человеческую интуицию, — занятие непозволительно дорогое и всё менее реалистичное. Кто-то пытается использовать более сильные модели для улучшения упряжек более слабых агентов, но и такой подход не лишён проблем: более сильные модели могут быть дороги или недоступны, а их «понимание» сбоев целевой модели может быть неполным.

Как работает Self-Harness: три шага к эволюции

Парадигма Self-Harness позволяет LLM-агенту совершенствовать собственную упряжку без инженеров-людей и без внешних «сильных» моделей. Это непрерывная самоэволюция, которая реализуется в трёхступенчатом цикле, где поведенческая аналитика превращается в обновления упряжки:

Выявление слабостей. На старте агент прогоняет набор задач с исходной упряжкой и собирает треки исполнения с верифицированными исходами. Затем он категоризирует неудачные треки и пытается выявить специфические для модели повторяющиеся паттерны отказов.

Генерация изменений. На основе выявленных паттернов агент выступает в роли «предлагатора» — он генерирует набор разнообразных и минимальных модификаций упряжки. Каждая правка привязана к конкретному механизму сбоя, чтобы избежать слишком общих исправлений.

Валидация предложений. Система тестирует каждую кандидатуру через регрессионные тесты. Правка утверждается только в том случае, если она улучшает производительность и не вызывает измеримой деградации на задачах, которые не участвовали в обучении. Если несколько кандидатур проходят проверку, они сливаются в следующую версию упряжки, которая становится стартовой точкой для следующей итерации.

Чтобы понять, зачем бизнесу такая автоматизация, представьте автоматического фиксера багов: он читает корпоративную документацию, пишет патчи и открывает пул-реквесты. Внезапно компания меняет стиль документации — агент ломается: тянет не тот контекст, пишет кривые патчи. Снаружи — просто сломался. Self-Harness же превращает этот размытый сбой в решаемую задачу. «Неудачные треки обнажают, где именно агент неправильно использует новый формат документации, — поясняет Чжан. — Предлагатор генерирует целевую правку упряжки, а оценщик решает, улучшает ли эта правка проблемные случаи без регресса в других».

Self-Harness в действии: цифры и факты

Исследователи прогнали Self-Harness на бенчмарке Terminal-Bench-2.0 — он проверяет общее выполнение задач с инструментами: управление артефактами, использование команд, верификационное поведение и восстановление после ошибок. В дело пошли MiniMax M2.5, Qwen3.5-35B-A3B и GLM-5.

Чтобы изолировать эффект самоэволюционирующей упряжки, стартовали с минимальной упряжки на базе DeepAgent SDK — только системный промпт для бенчмарка и дефолтные инструменты файловой системы и шелла. Бэкенд модели, набор инструментов, среда бенчмарка и оценщик оставались неизменными — варьировалась только упряжка.

Результаты количественные: производительность агентов выросла за счёт автоматических правок. На отложенных задачах все модели показали скачок от 33 до 60 процентов относительного улучшения. И ключевой момент — встроенное правило приёмки пропускает только те правки, которые повышают производительность без неприемлемых регрессий. Самое мощное для бизнеса: Self-Harness не делает промпт длиннее и не добавляет универсальных инструкций. Он вводит точечные изменения, отражающие реальные проблемы, с которыми модель сталкивается в своей работе.

Например, с базовой упряжкой MiniMax M2.5 залипал на бесконечном исследовании конфигураций датасетов, пока среда исполнения не отваливалась по таймауту — ни одного результата. Самообучающаяся упряжка опознала этот конкретный дефект и вписала в политику рантайма «ломатель циклов»: агент принудительно останавливается и меняет подход после 50 вызовов инструментов. Плюс добавила правило — создавать начальную версию необходимых артефактов как можно раньше.

Qwen-3.5, напротив, имел привычку натыкаться на ошибку перезаписи файлов и слепо повторять ту же команду раз за разом, в итоге в панике удалял нужные файлы и только потом останавливался. Self-Harness вылечил это жёсткой дисциплиной повторов команд (запрет на точное дублирование) и механизмом, который при файловой ошибке заставляет агента немедленно пересоздать потерянные артефакты.

GLM-5 страдал по-своему: он не умел сохранять изменения окружения между разными командами, увлекался массивными скачиваниями или завершал задачи, даже когда проверки на адекватность проваливались. Его самостенерированная упряжка добавила инструкции: сохранять переменные PATH между сессиями шелла, ограничивать внешние вычисления и исправлять любые проваленные проверки перед тем, как объявить о завершении.

Скрытые издержки: автоматизация не бесплатна

Да, Self-Harness берёт на себя нудную работу по вылавливанию специфических модельных сбоев. Но лица, принимающие решения, должны понимать: замена ручного труда автоматическим перебором требует немалых вычислительных ресурсов. «Self-Harness заменяет часть человеческой инженерной нагрузки на повторяющуюся генерацию предложений, параллельную оценку кандидатов и регрессионное тестирование, — поясняет Чжан. — Это значит больше токенов API, больше латентности во время оптимизации и больше инфраструктуры для выполнения оценочных задач».

Плюс система целиком зависит от точности пайплайна оценки. В экспериментах на Terminal-Bench-2.0 исследователи полагались на строгие детерминированные верификаторы, чтобы удостовериться — правки действительно полезны. Без такой жёсткой «земной истины» автоматизация рискует продвигать плохие обновления. «Система оценки — не опциональный компонент; именно она позволяет нам обменять человеческую интуицию на эмпирические доказательства», — подчёркивает Чжан.

Такая зависимость от строгих верификаторов диктует и область применения Self-Harness. «Лучшие цели для развёртывания сегодня — среды, где отказы можно измерить, а пробы и ошибки относительно безопасны», — говорит Чжан. В качестве примеров он называет написание кода, автоматизацию внутренних рабочих процессов и пайплайны DevOps данных.

Обратная сторона: категорически не стоит полностью отдавать на откуп автоматической упряжке высокорисковые или субъективные области. «Самые явные красные флаги — домены, где оценка субъективна, задержана, недетерминирована или ошибка обходится слишком дорого: медицинские решения, критическая инфраструктура, юридические заключения».

От твикеров промптов к архитекторам обратной связи

С появлением самоулучшающихся агентов кодинг и бизнес-процессы не уйдут в полный «бесчеловечный режим». Качество коллаборации человека и ИИ по-прежнему критично — и его трудно уловить автоматическими метриками.

Профессия инженера просто смещается на уровень абстракции выше. «Роль корпоративных инженеров будет меняться: от ручного патчинга отдельных промптов или вызовов инструментов — к проектированию систем обратной связи, которые делают улучшение агентов возможным», — прогнозирует Чжан. В обозримом будущем «инженер становится не твикером промптов, а архитектором обратной связи».

По мере того как фундаментальные модели становятся всё мощнее, они естественным образом вбирают многие способности, которые сегодня требуют ручной инженерии упряжки. Но, как отмечает Чжан, сама упряжка никуда не денется — её границы просто сдвинутся дальше, соединяя модель с более богатыми внешними средами. «Пока эти границы не выйдут за пределы того, что человек в состоянии оценить, люди останутся критически важным поставщиком обратной связи».