Назад в ленту

Nace AI: гиперсети приходят на смену RAG и тонкой настройке — разбор третьего пути для AI-агентов

Корпоративные команды снова и снова наблюдают один и тот же фарс. AI-агент шикарно выступает на демо, попадает в продакшн — и встаёт колом: пару шагов делает, а потом требует человека, чтобы тот подлил контекста и проверил вывод. Обещанная эффективность утекает в бесконечный контроль. Агент сделал работу? Ха! Это вы за ним следили. Неудивительно, что большинство пилотов так и не становятся реальными системами.



По ту сторону стены маячит та самая мечта, в которую хочет верить каждая команда: агент, который сам выполняет долгую задачу — хоть всю ночь, если надо, — а человеку остаётся лишь проверить последние 10%. Реально ли это? Упирается в проблему, которую разговоры об оркестрации обычно обходят стороной. Когда компания Chroma прогнала через 18 ведущих моделей, каждая теряла точность по мере роста входных данных. Это свойство механизма внимания, а не дыра, которую закроет более сильная модель. Агент, которого на ходу кормят всё новыми кусками вашего бизнеса, не становится устойчивее. Он становится шатче.



Вот он, слой под гонкой оркестрации. Маршрутизация, надёжное исполнение и наблюдаемость — всё это предполагает, что каждый агент сам по себе уже достаточно компетентен, чтобы координироваться. А реальный вопрос глубже: как долго агент может работать без вмешательства человека? И ответ упирается в то, где живут знания вашей компании относительно модели. Оба стандартных решения оставляют человека в цикле.



Почему обучение модели вашей бизнес-логике не даёт вам уйти с поводка



Фронтирные модели продолжают умнеть, но разрыв не сокращается — это не проблема способностей. Это вопрос того, где ваши знания расположены относительно модели. У предприятий есть два способа их разместить. Первый — тонкая настройка (fine-tuning): знания вплавляются в веса. Она по-прежнему страдает от катастрофического забывания — проблемы, обнаруженной ещё в 80-х и не решённой к 2026 году. Обучая модель новому, вы стираете то, что она уже знала. Команды обходят это, изолируя каждую задачу в отдельной тонко настроенной модели или адаптере. В итоге — расползающийся зоопарк моделей, дикие расходы и головная боль с управлением. К тому же тонко настроенная модель — это снимок, устаревающий в день изменения политики, когда начинается дорогой и медленный цикл переобучения.



Второе — внутриконтекстное обучение (in-context learning): политики закидываются прямо в промпт рантайма. Здесь вступает гниение контекста. Ретривал сужает корм, но промах ретривала выглядит так же уверенно, как точный ответ, а цена и задержка растут с каждым добавленным токеном.



Оба провала похожи. С тонкой настройкой модель может уверенно работать по политике прошлого квартала. С внутриконтекстным обучением — уверенно цепляться за деталь, потерянную в середине длинного промпта. В любом случае вывод выглядит одинаково уверенным, поэтому вы не можете сказать, какие части неверны, не проверив всё. Вот почему человек никуда не девается. Некоторые команды запускают оба подхода сразу: финят стабильные знания, остальное ретривят. Это смягчает каждую неудачу, но не устраняет ни одну: на любом выводе вы всё равно не уверены, что модель актуальна и работает с правильным контекстом — так что снова проверяете.



Третий путь: генерировать специализированную модель по требованию



Третий подход перебирается из исследований в ранние продукты. Вместо переобучения одной модели или напихивания промпта, генератор строит маленькую, задаче-специфичную модель на лету из ваших политик — прямо на инференсе. Этот генератор — гиперсеть: сеть, чьим выходом являются веса другой сети. Идею назвали в 2016 году; применение для создания специализированных языковых моделей из текста или документов — свежее и активное. Sakana AI с их Text-to-LoRA (представлен на ICML 2025) генерирует адаптер модели из описания на естественном языке за один проход, а система SHINE (2026) называет гиперсетевую адаптацию многообещающим новым рубежом — именно потому, что она обходит как дорогущее переобучение, так и контекстные лимиты промптинга.



Смысл генерировать адаптеры, а не обучать и хранить их, — схлопнуть обширную библиотеку пер-таск LoRAs в одну сеть, которая может выдавать их на лету, включая задачи, которые она никогда не видела.



Самое элегантное — как это замыкает цикл проблемы: пер-таск адаптер, который команды вручную клепают, чтобы избежать катастрофического забывания, — это ровно то же самое, что гиперсеть производит автоматически. Зоопарк моделей перестаёт быть головной болью управления и становится сгенерированным выводом.



Аргумент в пользу маленьких моделей был сформулирован прямо в 2025 году в работе Nvidia: для узких, повторяющихся задач, которыми полны воркфлоу агентов, маленькие модели достаточно способны и в 10-30 раз дешевле в запуске, чем фронтирные универсалы. Самый яркий коммерческий пример — Nace AI, компания из Пало-Альто, собравшая $21,5 млн на посевном раунде в мае. Её ключевая технология — генератор, который она называет MetaModel: на инференсе создаёт адаптации параметров для модели на основе политик компании. Ориентирована на регуляторную работу: аудит, комплаенс, оценка рисков. Компания утверждает, что её агенты выполняют львиную долю воркфлоу, пока эксперты-люди валидируют результат — соотношение, которое они рынкуют как 90/10.



Как соотносятся три подхода



Тонкая настройка (fine-tuning)В контексте / RAGМодель, сгенерированная гиперсетью
Где живут бизнес-знанияВ весах моделиВ промпте, подаётся каждый запускВ сгенерированных по запросу весах
Стоимость обновления при смене политикиВысокая: переобучениеНизкая: отредактировать источникНизкая: перегенерировать
УстареваниеВысокое: снимокНизкоеНизкое: регенерируется из актуальной политики
Стоимость и задержка на вызовНизкаяВысокая, растёт с контекстомНизкая рантайм
Основной режим отказаЗабывание; расползание зоопаркаГниение контекста; молчаливые промахи ретривалаКачество генерации; калибровка
Кому достаётся улучшаемый активТому, кто обучает модельТому, кто держит хранилище данныхЗависит, где живут генератор и обратная связь

Почему модель, построенная гиперсетью, поднимает потолок автономии



Узкая, актуальная и маленькая модель — это меньшая поверхность для ошибок. Меньше ошибок, ограниченных известной областью, — меньше выводов, которые агенту придётся эскалировать человеку. Это реальная основа для любого утверждения о высокой автономии. Отсюда и берётся цифра 90/10: не предустановленный регулятор, а результат того, как мало системе нужно возвращать человеку. Сообщаемые доли автономии стоит читать как измерения архитектуры, а не настройки.



Два проектных решения определяют, будет ли эта автономия заслуживающей доверия или просто быстрой. Первое — приземление (grounding): привязка каждого вывода к его источнику, чтобы проверяющий мог верифицировать, а не переделывать. Исследовательские модели, вроде HalluGuard, маркируют каждое утверждение как подтверждённое или нет и цитируют кусок, на который опирались. Nace поставляет своих агентов с моделями приземления и трейсами рассуждения по той же причине. 10% проверка имеет смысл только если человек может подтвердить происхождение за секунды.



Второе — петля обратной связи: оно вынуждает задать вопрос, который стоит задать каждому покупателю: когда ваши эксперты валидируют вывод, чья модель улучшается и где она живёт? Это решает, накапливающийся актив принадлежит вендору или вам. Схемы разные. Nace, например, для некоторых проектов использует внешнюю сеть сертифицированных экспертов, а для прямых корпоративных внедрений — собственный персонал клиента, и итоговая модель остаётся в облаке клиента. Каждый выбор направляет обучение и владение в разные места.

Где третий путь ломается



Подход пока сырой, и несколько вопросов решат, как далеко он зайдёт. Калибровка — краеугольный камень: ценность в том, чтобы модель знала, когда она не уверена. И это по-настоящему неопределённо: недавние работы по генерации таких адаптеров показали, что они не улучшают калибровку автоматически по сравнению с обычной тонкой настройкой — улучшения появляются только при специфических условиях. Качество сгенерированной модели также сильно зависит от политик, на которых она построена, — это поднимает ставки на курацию данных. А масштабирование — открытый рубеж: опубликованные на сегодня гиперсети маленькие. Вот тут работа Nace становится интересной: в нашем интервью компания заявила, что масштабировала свой генератор далеко за пределы опубликованных размеров и вывела закон масштабирования роста производительности — результаты начали публиковать и сейчас проходят рецензирование. Если подтвердится, это поможет ответить на один из центральных открытых вопросов поля — и за этой работой стоит следить.



Какой бы подход ни победил, работа всё равно упирается в человека, и эта передача — её собственная проектная задача. Когда Deloitte Australia подготовила правительственный отчёт примерно на 440 000 австралийских долларов, он ушёл с вымышленными цитатами и выдуманной цитатой суда — после того как прошёл старшее рецензирование. Проверяющие проверили выводы (они были верны), но не происхождение (оно было нет). Контролируемые исследования показывают, что паттерн общий: эксперты реже исправляли одинаково ошибочную рекомендацию, если она была помечена как сгенерированная AI. Статья 14 EU AI Act теперь называет это автоматизационным смещением. Урок не про конкретного вендора: высокая доля автономии концентрирует человеческое внимание в тонкий, поздний срез работы, так что ценность этой проверки целиком зависит от того, может ли человек быстро проверить происхождение — а это возвращает нас к приземлению.



Что строить и о чём спрашивать до покупки



Честный итог: ваши агенты тормозят не оркестровка и не размер модели, а то, знает ли модель ваш бизнес достаточно хорошо, чтобы её оставили в покое. И правильное решение зависит от задачи. Чтобы автоматизировать длинный, повторяющийся, высокообъёмный процесс от и до — прогнать внутренний аудит за ночь и оставить экспертам финальный срез — модель, сгенерированная гиперсетью, скорее всего сделает это дёшево и достаточно долго, чтобы иметь смысл. Для короткой задачи на несколько шагов, которая никогда не должна работать без присмотра, разница между этим и хорошо пропромпченной фронтирной моделью сжимается почти до нуля — и не стоит затрат на интеграцию.



Когда вендор предлагает автономных или специализированных агентов, четыре вопроса режут пустую болтовню. Где живут бизнес-знания: в весах, в промпте или генерируются на лету? Что идёт с каждым выводом, чтобы проверяющий мог верифицировать, а не переделывать? Что решает, какую работу эскалировать человеку? И чья модель улучшается от этой обратной связи и где она работает? Ответы, а не громкое соотношение, скажут вам, что вы покупаете.



Гиперсетевой подход — самая убедительная попытка заставить маленькую модель знать конкретный бизнес, не забывая его и не переобъясняя на каждом запуске. Но он же и наименее проверенный. Самые важные части — калибровка и масштаб — ещё на рецензировании. Для правильной задачи — пилотируйте сейчас. Для неправильной — затраты на интеграцию дадут мало того, что не дала бы хорошо запромпченная фронтирная модель.