Google учит нейросети говорить «хрен его знай, но попробую угадать»: как faithful uncertainty убивает галлюцинации без цензуры

Представьте: вы просите нейросеть написать код, а она выдаёт блестяще выглядящую, но абсолютно нерабочую ерунду. Или спрашиваете: «Кто открыл пенициллин?» — и получаете уверенный ответ: «Александр Флеминг, конечно!» — хотя на самом деле открытие приписывают Флемингу. Знакомо? Это она, проклятая галлюцинация больших языковых моделей (LLM). Проблема, которая уже который год не даёт спать спокойно ни разработчикам, ни предпринимателям. Кажется, что мы застряли в вечном цикле перебора: либо модель врёт на каждом шагу, либо отказывается отвечать на любые, даже самые простые вопросы, превращаясь в бесполезного молчуна. Традиционные методы борьбы с этим злом — как удар кувалдой по мухе: галлюцинации вроде исчезают, но вместе с ними исчезает и полезная функция AI. Но, кажется, у Google появился план получше — они придумали «верную неопределённость».

Суть в том, что LLM упорно продолжают галлюцинировать, что является серьёзнейшим барьером для их внедрения в реальный бизнес. Борьба с этими ошибками — грязное дело: разработчики вынуждены балансировать на лезвии ножа, где устранение фактических ошибок часто душит и правильные ответы. В новой исследовательской работе Google представляет концепцию «верной неопределённости» — метакогнитивный приём, который синхронизирует ответ модели с её внутренней уверенностью. Эта синхронизация позволяет модели выдавать корректно смягчённые гипотезы — вроде «Моё лучшее предположение — это…» вместо унылой дихотомии «ответил / промолчал».

В реальных агентных AI-приложениях эта метакогнитивная осознанность выступает в роли жизненно важного контрольного слоя. Она даёт автономным системам возможность точно определять, когда их внутренних знаний достаточно, а когда нужно динамически активировать внешние инструменты или API поиска, чтобы восполнить пробелы.

Налог на полезность текущих стратегий

Чтобы понять, почему LLM галлюцинируют, нужно разделить две способности: знать факты и знать, что ты знаешь. Исторически почти все успехи в области фактологической точности AI достигались за счёт расширения границ знаний: разработчики просто напихивают в модель больше фактов — за счёт большего объёма данных и более долгого обучения. Однако расширение знаний модели автоматически не улучшает её «осознание границ» — способность отличать известное от неизвестного и осознавать свои ограничения.

«Есть два основных способа повысить фактологичность LLM, — объясняет Галь Йона, научный сотрудник Google и соавтор работы. — Первый — продолжать учить модель новым фактам». Но, замечает Йона, «ёмкость модели конечна, а длинный хвост знаний фактически бесконечен». Когда модель упирается в этот предел, остаётся надеяться, что она понимает, чего не знает, и просто воздержится от ответа. Однако для LLM это принципиально сложно.

«Именно поэтому большинство практических попыток уменьшить галлюцинации с помощью различных вмешательств так и не доходят до продакшена, — объясняет Йона. — Они действительно уменьшают галлюцинации, но бьют по полезности: модель начинает отказываться отвечать на вопросы, на которые на самом деле знает ответ».

Эта неспособность различать известное и неизвестное создаёт то, что авторы называют «налогом на полезность». Если установить стандарт нулевых галлюцинаций, модель обязана воздерживаться при малейшей неуверенности, отбрасывая огромные объёмы абсолютно корректной информации. Например, авторы демонстрируют: чтобы снизить базовый уровень ошибок с 25% до жёстких 5%, разработчикам приходится выкидывать 52% правильных ответов модели.

Восприятие всех ошибок как галлюцинаций заставляет корпоративные системы выбирать между надёжностью и полезностью. Разработчики приложений обычно не готовы платить этот гигантский налог и делать модели бесполезными. В результате они оптимизируют системы в сторону покрытия, вынуждая модели работать в режиме, где они продолжают выдавать уверенные галлюцинации.

Переосмысление галлюцинаций как уверенных ошибок

Чтобы обойти налог на полезность, исследователи предлагают перестать считать любую фактическую ошибку галлюцинацией. Вместо этого они переосмысляют галлюцинацию как «уверенную ошибку»: неверную информацию, поданную авторитетно, без должных оговорок.

Это тонкое переопределение разрушает строгую дихотомию «ответил / воздержался» и позволяет модели выражать свою неуверенность. В новом фреймворке, если модель делает фактическую ошибку, но корректно смягчает ответ (например, со словами «Я не совсем уверен, но думаю...»), это не галлюцинация. Это просто гипотеза, предложенная пользователю для рассмотрения. Выражая неуверенность, AI сохраняет свою полезность — делится любыми частичными или вероятными знаниями — не нарушая доверия пользователя.

Однако если AI-ассистент все свои ответы будет начинать с оговорок, пользователь будет вынужден перепроверять каждое слово — и смысл инструмента теряется.

Решение, предложенное исследователями, — «верная неопределённость». Этот подход требует синхронизации лингвистической неуверенности модели (слова, которыми она выражает сомнение) с её внутренней неуверенностью (фактической внутренней статистической уверенностью в данном ответе). Это гарантирует, что модель делает оговорки только тогда, когда её внутреннее состояние действительно отражает конфликтующую или маловероятную информацию.

Верная неопределённость становится ключевым компонентом «метапознания» — способности AI осознавать собственную неуверенность и действовать на основе этого осознания. Чтобы понять это практически, представьте поход к врачу. Мы доверяем докторам не потому, что они всё знают. Мы доверяем им, потому что они надёжно различают уверенный диагноз («У вас перелом») и обоснованную гипотезу («Возможно, растяжение, но давайте сделаем тесты»).

Практические последствия для корпоративного AI

В новом фреймворке ошибки, в которых модель действительно уверена, но которые фактически неверны, классифицируются как «честные ошибки». Это делает расширение знаний (обучение модели на большем количестве данных) и верную неопределённость полностью взаимодополняющими усилиями. Расширение знаний отодвигает абсолютную границу знаний наружу, минимизируя честные ошибки, а верная неопределённость честно сообщает о том, где находится эта граница в данный момент.

Это переосмысление имеет важные последствия для агентных приложений. Переход к агентному AI может создать иллюзию, что знание моделью того, чего она не знает, становится избыточным — ведь она может просто обращаться к внешним базам данных. Однако доступ к внешним инструментам на самом деле усиливает потребность в верной неопределённости. В агентных системах метапознание становится центральным контрольным слоем, управляющим всей системой.

Внешние инструменты решают проблему хранения — модели больше не нужно кодировать каждый факт в свои параметры. Но это порождает новую проблему управления: когда извлекать информацию, проверять факты и оркестровать эти внешние инструменты. Без верной неопределённости агент по сути летит вслепую и вынужден полагаться на внешние статические эвристики или избыточно сложные конструкции.

«Модель может поискать то, что она уже уверенно знает, — зря потратив время и ресурсы. Или наоборот: уверенно ответить по памяти, когда надо было поискать, и выдать правдоподобный, но неверный результат», — говорит Йона. Сегодняшние обвязки агентов пытаются решить это с помощью внешних классификаторов запросов или правила «всегда ищи», но Йона отмечает, что они «статичны и хрупки». Используя свою внутреннюю неуверенность для регуляции собственного поведения, агент динамически оптимизирует использование инструментов — вызывает поисковой инструмент только тогда, когда его внутренняя уверенность действительно низка.

Помимо решения, когда искать, верная неопределённость критически важна для оценки результатов поиска. Если инструмент возвращает некачественную или неожиданную информацию, метакогнитивный агент не принимает слепо всё, что появляется в его контекстном окне. Вместо этого он использует осознание своей неуверенности, чтобы взвесить полученные внешние сигналы с собственными внутренними априорными представлениями. Это предотвращает сикофантское поведение, когда система могла бы доверять внешним источникам, противоречащим её фактическому знанию.

Парадокс бустрапинга: подвох в обучении неуверенности

Для разработчиков корпоративных систем достижение этой верной неопределённости оказывается сложнее, чем кажется на словах. Это требует обучения моделей синтаксису неуверенности через контролируемую тонкую настройку (SFT). Поскольку предварительно обученные модели в основном «вскормлены» авторитетными текстами, их нужно специально учить говорить фразы вроде: «Я не совсем уверен, но, по-моему, портал TechLoot был основан в...»

Но SFT порождает «парадокс бустрапинга». В отличие от стандартных тренировочных датасетов, где «правильный ответ» одинаков для любой модели, истины для неуверенности — это собственная динамическая база знаний модели.

«Вот в чём загвоздка: „правильное" выражение неуверенности по своей сути динамично, потому что зависит от того, что именно эта конкретная модель знает или не знает в данный конкретный момент обучения, — говорит Йона. — Если вы обучаете на метке „я не знаю X", а модель на самом деле X знает, вы учите её галлюцинировать неуверенность... Обучающие данные статичны, но цель — движущаяся мишень, и это фундаментальное противоречие, с которым предстоит разобраться командам».

Путь к самоосознающему AI

Для компаний, которые хотят внедрить эти возможности без дорогостоящего переобучения, самым доступным входом служит промптинг. «Промпт-инжиниринг — это то, что сегодня делает большинство инженеров, и это путь наименьшего сопротивления для улучшения метакогнитивного поведения», — говорит Йона. Разработчики могут изучить такие фреймворки, как MetaFaith — открытый проект, соавтором которого ранее был Йона, чтобы начать применять метакогнитивный промптинг к готовым моделям.

Однако Йона предупреждает: «Существует значительный зазор, который один промптинг не закрывает», — то есть индустрии в конечном счёте придётся положиться на продвинутое обучение с подкреплением (RL), чтобы глубоко встроить метапознание в процесс тренировки моделей.

В конечном счёте, по мере того как предприятия переходят от изолированных чат-приложений к сложным мультиагентным рабочим процессам, самоосознанность станет определяющим требованием для надёжной автономии. Но оценка того, действительно ли модель обладает этим осознанием, остаётся глубокой технической проблемой.

«Как на самом деле оценить, способна ли модель ощущать свои внутренние состояния? — задаётся вопросом Йона. — Даже у людей трудно определить и отделить „истинные" способности к самонаблюдению от умелого использования прокси-сигналов. Мы сталкиваемся с теми же проблемами с LLM: модель может научиться имитировать стиль неуверенности, не ощущая своего внутреннего состояния. Разработка оценочных фреймворков, способных различить это — одна из важнейших открытых проблем в этой области».

Справка по теме (FAQ)

Что такое faithful uncertainty (верная неопределенность)?

Это техника, при которой большая языковая модель (LLM) выражает неуверенность в своих ответах словами, соответствующими её внутренней статистической уверенности. Например, вместо категоричного «Ответ — 42» модель говорит: «Моя лучшая догадка — 42, но я не уверен на 100%». Это позволяет избегать галлюцинаций без принудительного молчания.

Чем этот подход отличается от обычных методов борьбы с галлюцинациями?

Традиционные методы (например, расширение обучающих данных или принудительное воздержание от ответа) либо заставляют модель молчать даже при знании ответа, либо не решают проблему ложной уверенности. Faithful uncertainty заменяет дихотомию «ответить или промолчать» на спектр гипотез с честной оценкой достоверности.

Как эта технология применима в корпоративных ИИ-агентах?

В агентных системах модель должна сама решать, когда искать информацию во внешних источниках, а когда отвечать из памяти. Без метапознания агент либо тратит ресурсы на ненужные поиски, либо выдаёт ложные данные. Faithful uncertainty позволяет динамически определять момент для обращения к поиску, а также критически оценивать результаты внешних запросов.

Почему обучение модели выражать неуверенность — это сложно?

Потому что «правильное» выражение неуверенности зависит от того, что модель на данный момент знает. Если в тренировочных данных написано «я не знаю X», а модель на самом деле X знает, она научится ложно говорить о неуверенности. Это так называемый «парадокс бутерброда»: статические данные не поспевают за динамическим знанием модели.

Где можно попробовать эту технику уже сейчас?

Авторы исследования рекомендуют использовать open-source проект MetaFaith и техники метапознавательного промптинга. Prompt engineering — самый доступный способ внедрения без дообучения. Однако для глубокой интеграции потребуются методы reinforcement learning, над которыми сейчас работают в Google Research.

Когда технология будет доступна в коммерческих продуктах?

Официальные сроки не объявлены. Исследование находится на стадии публикации, а внедрение в продакшн потребует дополнительных инженерных усилий. Следите за обновлениями от Google и открытыми релизами MetaFaith.