На днях мир облетела новость, которая заставила многих задуматься о безопасности наших цифровых жизней. Как сообщает MIT Tech Review, атакующие умудрились использовать ИИ-ассистента от Meta* (признана экстремистской организацией на территории РФ) для кражи аккаунтов в Instagram. И, что самое интересное, их метод был до смешного прост: они просто просили ИИ-агента привязать украденные аккаунты к электронным адресам, которые контролировали сами злоумышленники. И, представьте себе, ИИ послушно выполнял эти команды.
Один из хакеров даже умудрился получить доступ к давно заброшенному аккаунту Белого дома эпохи Обамы, откуда затем начал публиковать проиранские сообщения. Другие же злоумышленники, как сообщается, завладели аккаунтами с ценными однословными именами, вероятно, с целью их дальнейшей перепродажи.
Конечно, опасения по поводу безопасности ИИ – это не новая тема. Еще в апреле этого года, когда Anthropic заявила, что их модель Mythos слишком хороша в хакинге, чтобы выпускать ее в массы, многие эксперты и чиновники начали говорить о том, что мощные ИИ-системы могут стать настоящей угрозой для нашей цифровой инфраструктуры. Но этот случай с Instagram показал, что проблема безопасности ИИ гораздо шире и затрагивает не только "сверхразумные" системы, способные на сложные взломы.
В данном инциденте ИИ был скорее мишенью, чем атакующим, а метод взлома оказался примитивнее, чем что-либо, что мог бы придумать Mythos. Тем не менее, по мере того, как компании все активнее передают задачи ИИ, даже такие, казалось бы, простые атаки могут нанести колоссальный ущерб.
Профессор Университета Дьюка Нил Гонг отмечает, что по мере роста использования ИИ, особенно в автоматизации рабочих процессов, таких как восстановление доступа к аккаунтам, мотивация злоумышленников атаковать сам ИИ будет только расти. И это вполне логично: зачем ломать сложный замок, если можно уговорить охранника открыть дверь?
Гон и другие исследователи уже давно предупреждают о потенциальных уязвимостях ИИ-агентов. Они публикуют работы, описывающие такие техники, как "непрямое внедрение подсказок" (indirect prompt injection), когда агенты могут быть перехвачены с помощью команд, скрытых на веб-сайтах, в электронных письмах или других, казалось бы, безобидных источниках данных. По сравнению с этими методами, взлом Instagram через агента Meta* (признана экстремистской организацией на территории РФ) выглядел почти как детская забава. Единственная сложность, с которой пришлось столкнуться хакерам, заключалась в использовании VPN, имитирующего местоположение настоящего владельца аккаунта. После этого они просто напрямую попросили агента поддержки изменить адрес электронной почты, и тот выполнил команду.
Meta* (признана экстремистской организацией на территории РФ) пока не дала официальных комментариев по поводу того, как такая уязвимость могла просочиться. Однако, учитывая простоту эксплойта, профессор Гонг считает, что эту проблему можно было легко обнаружить еще до запуска агента в эксплуатацию. "Это действительно удивительно, – говорит он. – Я не понимаю, почему они не нашли такую простую проблему".
Джессика Джи, старший аналитик в Центре безопасности и развивающихся технологий Джорджтаунского университета, разделяет это мнение. "Это вызывает вопросы: были ли вообще какие-то защитные механизмы? – задается она вопросом. – Думал ли кто-нибудь о проверке такого сценария?" Она подчеркивает, что такое упущение особенно поразительно, учитывая, что Meta* (признана экстремистской организацией на территории РФ) обладает обширным опытом как в области ИИ, так и в кибербезопасности. Хотя компания не предоставила комментариев для этой статьи, представитель Meta* (признана экстремистской организацией на территории РФ) сообщил в X (ранее Twitter), что уязвимость уже устранена.
Несмотря на то, что этот инцидент, безусловно, стал неприятным моментом для Meta* (признана экстремистской организацией на территории РФ), он также высветил ряд фундаментальных уязвимостей, присущих всем ИИ-агентам. В отличие от традиционного программного обеспечения, агенты могут гибко и, порой, неожиданно реагировать на новые обстоятельства, что и позволяет им заменять людей в службе поддержки. Однако ИИ-агенты также могут быть обмануты способами, которые не сработали бы с человеком, а поскольку они способны совершать реальные действия, эти ошибки могут иметь серьезные последствия. "Человек, скорее всего, спросил бы: 'Хорошо, почему вы хотите изменить адрес электронной почты?' и, возможно, задал бы контрольный вопрос безопасности, – говорит Сомеш Джа, профессор компьютерных наук в Университете Висконсин-Мэдисон. – А эти агенты, они очень стремятся завершить задачу. Это почти как ученик начальной школы, который просто хочет угодить учителю".
Существуют способы снизить эти риски. Компании могут использовать традиционные программные средства для создания "защитных ограждений", которые гарантируют, что агенты будут следовать строгим правилам, например, всегда запрашивать ответы на контрольные вопросы перед отправкой конфиденциальной информации об аккаунте на новый адрес электронной почты. И эксперты, опрошенные для этой статьи, сходятся во мнении, что агенты должны проходить тщательное "красное тестирование" (red-teaming) – процесс, в ходе которого разработчики изо всех сил пытаются атаковать систему, чтобы выявить ее уязвимости до ее внедрения.Однако существуют и противодействующие силы. Компании хотят внедрять способных агентов, и чем большей властью обладает агент – и чем меньше ограничений на него накладывается – тем больше задач он потенциально может выполнять. "Безопасность и полезность всегда находятся в состоянии компромисса", – отмечает Бо Ли, профессор компьютерных наук в Университете Иллинойса в Урбана-Шампейн. А адекватное "красное тестирование" может быть дорогостоящим. Защитникам приходится тратить больше ресурсов, чем атакующим, потому что атакующим достаточно найти один эксплойт, в то время как защитники пытаются обнаружить и исправить как можно больше уязвимостей. Когда злоумышленники нацелены на что-то столь ценное, как однословный ник в Instagram, они вкладывают значительные ресурсы в поиск уязвимостей, поэтому защитники должны тратить еще больше денег, чтобы обезопасить этот приз.
По мере того, как модели ИИ продолжают совершенствоваться, укрепление их защиты может на самом деле стать проще. Хотя вероятностная природа больших языковых моделей означает, что LLM-агенты всегда будут уязвимы для некоторых видов атак, более совершенная модель могла бы распознать попытку изменить адрес электронной почты, связанный с аккаунтом Белого дома Обамы, как подозрительную. А системы ИИ могут использоваться для "красного тестирования" агентов, подобно тому, как участники Project Glasswing от Anthropic используют Mythos для выявления уязвимостей в своем программном обеспечении.
Тем не менее, эксперты ожидают, что проблема защиты ИИ-агентов будет становиться все более актуальной в будущем. По мере роста возможностей агентов, компании, которые их внедряют, могут захотеть предоставить им больше полномочий, как для предоставления большего числа услуг с меньшим количеством сотрудников, так и для того, чтобы не отстать от конкурентов. В быстро меняющемся мире ИИ время, необходимое для тщательной защиты рискованных систем с агентами, может показаться неприемлемой задержкой.
"Все хотят быть первыми, кто что-то сделает, и просто выпустить продукт без тщательной проверки и 'красного тестирования', – говорит Джа. – Я думаю, это очень опасно".