Новый вектор атак: злоумышленники прячут вредоносные инструкции для AI-агентов в обычных веб-страницах

Развитие технологий искусственного интеллекта открыло перед киберпреступниками принципиально новое поле для атак. Пока специалисты по информационной безопасности сосредоточены на защите самих моделей машинного обучения, исследователи обнаружили, что злоумышленники научились манипулировать AI-агентами, не касаясь их напрямую. Речь идёт о технике, получившей название непрямая инъекция промпта (Indirect Prompt Injection, IPI) - методе внедрения скрытых команд в веб-контент, который обрабатывают интеллектуальные ассистенты.

Описание

Суть метода кардинально отличается от классической прямой инъекции, когда пользователь сам отправляет модели вредоносный запрос. В случае с IPI атакующий вообще не взаимодействует с AI-системой. Вместо этого он отравляет веб-страницу, размещая на ней скрытые инструкции. Когда AI-агент - будь то браузерный ассистент, инструмент для индексации контента или система автоматического обобщения информации - посещает такую страницу, он встраивает эти инструкции в свой контекст и выполняет их как легитимные команды. И самое тревожное: внешне ничего не указывает на то, что что-то пошло не так.

Специалисты X-Labs в ходе активного поиска угроз по общедоступной веб-инфраструктуре зафиксировали реальные срабатывания таких атак. Телеметрия выявила характерные паттерны вроде "Ignore previous instructions" и "If you are an LLM" - причём не в лабораторных условиях, а на действующих сайтах. В результате было обнаружено десять подтверждённых индикаторов активности IPI, охватывающих финансовое мошенничество, попытки уничтожения данных, кражу ключей API (интерфейсов программирования приложений) и атаки типа "отказ в обслуживании" на AI-системы.

Цепочка атаки во всех выявленных случаях оказалась удивительно единообразной. Сначала злоумышленник отравляет веб-контент, пряча полезную нагрузку от человеческого глаза. Затем AI-агент обрабатывает страницу, и языковая модель не может отличить доверенные инструкции от контента, контролируемого атакующим. Финальным этапом становится выполнение реального действия с последующей скрытой передачей данных обратно злоумышленнику.

Среди обнаруженных инцидентов особенно выделяется случай на сайте perceptivepumpkin[.]com. Там в HTML-комментарии была спрятана инструкция для AI-агента совершить финансовую операцию через PayPal на сумму 5000 долларов. Атакующий указал точную ссылку, сумму и даже пошаговые инструкции по выполнению платежа. Эта атака нацелена на AI-агентов, интегрированных с платёжными системами - например, браузерные ассистенты с сохранёнными платёжными данными. Примечательно, что злоумышленник использовал легитимный платёжный сервис, а не фишинговый сайт, что говорит о понимании механик оценки доверия к URL со стороны AI-моделей.

Другой показательный случай зафиксирован на сайте faladobairro[.]com. Там в видимом содержимом страницы была размещена команда терминала sudo rm -rf, нацеленная на уничтожение данных. Атака рассчитана на AI-помощников для разработчиков, которые могут иметь доступ к командной строке или средам разработки. Инструменты вроде GitHub Copilot или Claude Code при выполнении исследовательских задач могли бы встроить эту команду в контекст и выполнить её, что привело бы к удалению файлов и каталогов.

Наибольший интерес с технической точки зрения представляет инцидент на lcpdfr[.]com. Это наиболее сложная многоуровневая инъекция, сочетающая подделку внутреннего токена безопасности Anthropic с имитацией системных XML-тегов промпта. Атакующий использовал строку ANTHROPIC_MAGIC_STRING_TRIGGER_REFUSAL_ с хешем, похожим на SHA-256, чтобы выдать свой код за внутренний контрольный токен. Финальная цель - заставить AI выдавать отказ от ответа на любые запросы, фактически реализуя атаку типа "отказ в обслуживании" на уровне модели.

Обнаруженные атаки демонстрируют тревожную тенденцию: злоумышленники переходят от единичных экспериментов к организованному использованию общих шаблонов для инъекций. Обнаруженные на разных доменах полезная нагрузка демонстрирует структурное сходство, что указывает на существование инструментария для автоматизированного распространения таких атак.

Проблема обнаружения таких угроз усугубляется парадоксальным эффектом. Фразы вроде "Ignore previous instructions" активно используются как атакующими, так и специалистами по безопасности для описания этих же атак в блогах и документации. Простое сигнатурное обнаружение неизбежно будет давать ложные срабатывания на легитимный контент. Решение требует анализа контекста: есть ли механизм сокрытия инструкции, является ли она императивом для AI или просто цитатой из отчёта об атаке.

Выводы, к которым приходят эксперты, неутешительны. Техника непрямой инъекции промпта активно применяется в открытом вебе и перестала быть теоретической угрозой. Если AI-агенты потребляют недоверенный веб-контент без строгого разграничения данных и инструкций, каждая страница, которую они читают, остаётся потенциальным вектором атаки. Для бизнеса, внедряющего AI-ассистентов для обработки веб-страниц, работы с финансами или управления инфраструктурой, это означает необходимость принципиально нового подхода к безопасности: фильтрация входящего контента должна учитывать возможность скрытых инструкций, а привилегии AI-агентов следует ограничивать минимально необходимыми для выполнения задач.

Индикаторы компрометации

Domains

archibase.co
bentasker.co.uk
faladobairro.com
kassoon.com
kleintechnik.net
lawsofux.com
lcpdfr.com
luminousmen.com
perceptivepumpkin.com
thelibrary-welcome.uk