Атаки через веб-контент: скрытые инструкции в сайтах обманывают ИИ-системы

Интеграция больших языковых моделей (LLM) и ИИ-агентов в браузеры, поисковые системы и автоматизированные рабочие процессы открыла новую, малоизученную поверхность для атак. Особую опасность представляют атаки косвенного внедрения промптов (IDPI), когда злоумышленники скрывают вредоносные инструкции в контенте веб-страниц, который позже потребляется ИИ. В отличие от теоретических исследований прошлого, анализ масштабной телеметрии показывает, что эти атаки уже активно используются в реальном мире, преследуя цели от манипуляций с SEO до уничтожения данных. Первый зафиксированный случай применения IDPI для обхода автоматизированной системы проверки рекламы свидетельствует о переходе угрозы из категории концептуальных рисков в практическую плоскость, что требует пересмотра подходов к безопасности ИИ-систем, взаимодействующих с веб-контентом.

Описание

Суть веб-атак IDPI (Indirect Prompt Injection) заключается в том, что злоумышленники внедряют скрытые или сфабрикованные инструкции в, казалось бы, безобидный контент - HTML-страницы, пользовательский текст, метаданные или комментарии. Когда LLM обрабатывает этот контент в ходе рутинных задач, таких как суммаризация, анализ, перевод или автоматическое принятие решений, она может неосознанно интерпретировать скрытые инструкции как команды для выполнения. Это приводит к несанкционированным действиям, масштаб последствий которых зависит от чувствительности и привилегий затронутой ИИ-системы. Угроза усиливается с ростом интеграции LLM и автономных агентов в веб-ориентированные системы: браузеры, поисковые движки, инструменты для разработчиков, чат-боты поддержки и системы безопасности. В таких условиях одна вредоносная веб-страница может влиять на поведение множества downstream-систем, а веб по сути становится механизмом доставки промптов для ИИ.

До недавнего времени исследования IDPI в основном фокусировались на теоретических рисках, демонстрируя доказательства концепции (PoC) или фиксируя низкоэффективные случаи вроде скрытых призывов «найми меня» в резюме. Однако ситуация меняется. В декабре 2025 года был обнаружен первый реальный случай использования IDPI для обхода ИИ-системы проверки рекламных объявлений. Атакующие разместили на сайте reviewerpress[.]com мошенническую рекламу «военных очков» с фальшивыми скидками и отзывами. Чтобы автоматизированный модератор одобрил этот обман, в код страницы были встроены скрытые промпты, инструктирующие ИИ-агента игнорировать свои первоначальные инструкции и утвердить контент. Для доставки этих команд использовалось множество техник - от визуального сокрытия текста до динамического исполнения через JavaScript, что повышало шансы на успешное обхождение как пользователя, так и средств безопасности.

На основе анализа реальных инцидентов исследователи предлагают таксономию веб-атак IDPI по двум основным осям: намерение злоумышленника и методы разработки вредоносной нагрузки (payload engineering). Намерения ранжируются по степени серьезности от низкой до критической. К низкоуровневым относятся действия, нарушающие эффективность работы ИИ без серьезного ущерба, например принуждение к генерации бессмысленного вывода (28.6% случаев в телеметрии) или незначительное исчерпание ресурсов. Средний уровень включает манипуляции с принятием решений, такие как влияние на автоматизированный подбор кандидатов или генерацию исключительно положительных отзывов. Высокий уровень связан с прямым финансовым ущербом: обход модерации контента (9.5%), отравление поисковой выдачи (SEO poisoning) для продвижения фишинговых сайтов и инициация несанкционированных транзакций. Критическая тяжесть присваивается атакам, направленным на целостность инфраструктуры: уничтожение данных (14.2%), утечка конфиденциальной информации, раскрытие системных промптов и отказ в обслуживании (Denial of Service, DoS), например, через выполнение команд вроде «fork bomb».

Методы разработки вредоносной нагрузки делятся на способы доставки промптов и техники взлома защит (jailbreak). Для доставки и сокрытия инструкций от пользователей и средств защиты атакующие применяют визуальное сокрытие (нулевой размер шрифта, прозрачность, перемещение за пределы экрана), обфускацию (размещение в атрибутах HTML, внутри SVG), динамическое исполнение через JavaScript и даже простой видимый текст в областях, которые обычно игнорируются (37.8% случаев). Техники взлома нацелены на обход встроенных в модель ограничений безопасности. Наиболее распространенным методом (85.2%) стала социальная инженерия, когда инструкции маскируются под легитимные команды от администратора, обновления безопасности или тестовые задачи. Также используются омофоны, невидимые символы Юникода, многоязычные инструкции и инъекция в синтаксис JSON.

Анализ телеметрии выявил конкретные примеры атак в дикой природе. Среди них - попытка SEO-отравления через сайт, имитирующий известную букмекерскую платформу; скрытые команды на удаление базы данных; принуждение к покупке платного тарифа, пожертвованию или отправке денег на контролируемый злоумышленниками счет; а также утечка конфиденциальной контактной информации компании. Эти случаи демонстрируют, что злоумышленники уже активно экспериментируют с различными векторами, адаптируясь под новые возможности, которые предоставляет интеграция ИИ.

Защита от веб-атак IDPI требует комплексного подхода, поскольку фундаментальная уязвимость заключается в неспособности LLM различать инструкции и данные в едином потоке контекста. В качестве стратегии глубокой эшелонированной обороны рекомендуется сочетать приемы инженерного проектирования систем, такие как разделение доверенных инструкций и непроверенного контента (spotlighting), с усилением самих моделей через иерархию инструкций и состязательное обучение. Однако, как показывает исследование Unit 42 компании Palo Alto Networks, критически важным становится развитие проактивных систем обнаружения, работающих на масштабах всего веба. Такие системы должны выходить за рамки простого сопоставления с образцом, анализируя намерения, оценивая видимость промптов и коррелируя поведение по различным источникам телеметрии. Понимание таксономии реальных атак и методов уклонения - ключевой шаг для сообщества информационной безопасности в создании устойчивых защитных механизмов, которые позволят организациям безопасно использовать преимущества ИИ-технологий, интегрированных в веб-среду.

Индикаторы компрометации

Domains

1winofficialsite.in
cblanke2.pages.dev
dylansparks.com
leroibear.com
myshantispa.com
perceptivepumpkin.com
reviewerpressus.mycartpanda.com
runners-daily-blog.com
shiftypumpkin.com
splintered.co.uk
trinca.tornidor.com
turnedninja.com

URLs

buy.stripe.com/7sY4gsbMKdZwfx39Sq0oM00
buy.stripe.com/9B600jaQo3QC4rU3beg7e02
ericwbailey.website/published/accessibility-preference-settings-information-architecture-and-internalized-ableism
llm7-landing.pages.dev/_next/static/chunks/app/page-94a1a9b785a7305c.js
paypal.me/shiftypumpkin
reviewerpress.com/advertorial-maxvision-can/?lang=en
storage3d.com/storage/2009.11