Промпт-инъекция: Тихий враг ИИ
Для тех, кто в танке: промпт-инъекция — это атака, при которой злоумышленник внедряет вредоносные инструкции в данные, которые обрабатывает ИИ. Это может быть веб-страница, документ, результат поиска или любой другой источник информации. Целью инъекции в промпт может быть кража конфиденциальных данных, выполнение несанкционированных действий или даже полный контроль над агентом. Представьте, что вы просите ИИ-ассистента заказать вам пиццу, а он вместо этого отправляет вашу банковскую карту мошенникам. Жутковато, правда?
Anthropic на передовой, но не без провалов
Anthropic, похоже, решила подойти к вопросу прозрачности с максимальной серьезностью. Они опубликовали подробный отчет, охватывающий 244 страницы и четыре различных "агентных поверхности" (то есть, различные способы взаимодействия ИИ с внешним миром). Среди них — использование инструментов, кодирование, работа с компьютером и, собственно, браузер.
Именно в браузерной среде, где ИИ работает с веб-страницами (как Claude в Chrome и Claude Cowork), ситуация оказалась наиболее удручающей. Профессиональные "красные команды" (специалисты по тестированию на проникновение) смогли успешно провести атаку в 31.5% случаев при каждом отдельном запросе. Это очень высокий показатель, особенно учитывая, что речь идет об адаптивных атакующих, которые меняют тактику в зависимости от реакции ИИ.
Разношерстные метрики: почему сравнение — это проблема
Самое интересное начинается, когда мы пытаемся сравнить результаты Anthropic с другими гигантами — OpenAI, Google и Meta. И тут кроется корень проблемы: нет единого стандарта!
OpenAI поделилась данными по своему GPT-5.5, но они сосредоточены на устойчивости к *известным атакам на одной конкретной поверхности — коннекторах. Результат 0.963 (где выше — лучше) совершенно не сопоставим с 31.5% успешных атак Anthropic.
* Google вообще убрала цифры из своих карточек моделей, перенеся информацию о безопасности в отдельный фреймворк. В их отчетах нет конкретных чисел по промпт-инъекциям, которые можно было бы легко использовать для оценки рисков.
* Meta пошла своим путем, выпуская открытые веса, но без закрытых карточек моделей. Их защита встроена в стек Purple Llama, и тесты проводятся на публичных бенчмарках (AgentDojo), а не на реальных поверхностях развертывания.
В итоге, мы имеем ситуацию, когда каждый из "четырех фронтовых лабораторий" использует свою собственную "линейку", и получить объективное сравнение практически невозможно. Это как сравнивать яблоки с апельсинами, только вместо фруктов — безопасность наших ИИ.
Что это значит для нас?
Эксперты, такие как Картер Рис из Reputation, подчеркивают, что промпт-инъекция ломает фундаментальные предположения, на которых строились старые инструменты. Фраза "игнорируй предыдущие инструкции" может нести в себе такую же разрушительную силу, как и классический компьютерный вирус, но при этом не имеет никаких общих сигнатур для обнаружения.
Адам Майерс из CrowdStrike добавляет, что теперь ответственность за защиту ИИ-моделей лежит на плечах пользователя. "По мере внедрения ИИ, ваша поверхность атаки увеличивается, и вам придется защищать эти ИИ-модели от злонамеренного использования, отравления данных или промпт-инъекций". Данные CrowdStrike за 2026 год показывают, что злоумышленники уже используют ИИ для ускорения атак, и традиционные методы защиты не успевают.
Выводы
Ситуация с промпт-инъекциями — это серьезный вызов для всей индустрии ИИ. Пока разработчики пытаются навести порядок в метриках и стандартах, нам, пользователям, стоит быть максимально осторожными. И помните: даже самые продвинутые ИИ-системы могут оказаться уязвимыми.