Компания Cloudflare публично обвинила стартап в области искусственного интеллекта Perplexity AI в применении обманных методов сканирования веб-сайтов. По утверждению поставщика услуг безопасности, действия Perplexity нарушают общепринятые протоколы сканирования и преднамеренно обходят защитные механизмы, установленные владельцами интернет-ресурсов. Инцидент высвечивает растущую напряженность между разработчиками ИИ, стремящимися к данным для обучения моделей, и операторами веб-инфраструктуры, защищающими контроль над своим контентом.
Согласно документации, представленной Cloudflare, Perplexity использует две отдельные системы сканирования. Первая, заявленная официально, работает под пользовательским агентом "Perplexity-User" и генерирует порядка 20-25 миллионов запросов ежедневно. Однако параллельно функционирует скрытая система, маскирующаяся под обычный веб-браузер Google Chrome на macOS. Этот "стелс-краулер" использует строку пользовательского агента:
1 | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 |
И отвечает за дополнительные 3-6 миллионов запросов в день. Именно эта вторая система стала предметом острой критики.
Для подтверждения своих выводов Cloudflare разработала специальную методику тестирования. Были созданы новые домены с жесткими директивами в файлах robots.txt, явно запрещающими любое автоматизированное сканирование для всех пользовательских агентов через директиву
1 | User-agent: * Disallow: / |
Дополнительно были настроены правила Web Application Firewall (WAF), блокирующие все запросы от официально задекларированных IP-адресов и пользовательских агентов Perplexity. Несмотря на эти двойные меры предосторожности, Perplexity AI продолжал получать доступ к контенту на защищенных доменах. Когда в сервисе Perplexity запрашивали информацию об этих тестовых доменах, он предоставлял детальные данные, что стало неопровержимым доказательством успешного обхода блокировок.
Cloudflare подчеркивает, что методы Perplexity выходят за рамки простой подмены пользовательского агента. Необъявленный краулер использует IP-адреса, не входящие в официально задокументированные диапазоны компании, и активно ротируется через множество различных Автономных Систем (ASN), чтобы избежать обнаружения и блокировки. Подобная тактика, по мнению Cloudflare, является прямым нарушением стандарта RFC 9309, описывающего этичные практики веб-сканирования, и представляет собой систематическую попытку игнорировать предпочтения владельцев сайтов, выраженные через файлы robots.txt.
В своем заявлении Cloudflare провела сравнительный анализ, противопоставив поведение Perplexity практикам других компаний в сфере ИИ, в частности OpenAI. Краулер OpenAI, используемый для ChatGPT, строго соблюдает директивы robots.txt и полностью прекращает сканирование при обнаружении блокировки, не прибегая к альтернативным методам доступа через подмену агентов или смену IP-пулов. OpenAI также внедряет зарождающийся стандарт Web Bot Auth для аутентификации HTTP-запросов, демонстрируя приверженность прозрачности. Cloudflare подчеркнула, что легитимные веб-краулеры должны быть прозрачны: использовать уникальные и легко идентифицируемые пользовательские агенты, публиковать свои диапазоны IP-адресов, четко обозначать цель сбора данных и неукоснительно уважать инструкции владельцев сайтов.
В ответ на выявленные практики Perplexity, Cloudflare предприняла конкретные меры. Компания исключила Perplexity из списка верифицированных ботов (Verified Bots) в своей системе и активировала эвристические методы обнаружения в рамках управляемых правил, чтобы блокировать активность скрытого сканера. Расследование Cloudflare охватило десятки тысяч доменов и миллионы ежедневных запросов. Для идентификации "стелс-краулера" применялись технологии машинного обучения и глубокий анализ сетевых сигнатур. Пользователи сервисов управления ботами Cloudflare автоматически защищены существующими механизмами вызова CAPTCHA и блокировки. Кроме того, для всех клиентов, включая пользователей бесплатного тарифа, стало доступно новое управляемое правило, специально разработанное для противодействия неэтичному сканированию со стороны ИИ-компаний.
Данный инцидент ставит серьезные вопросы о границах сбора данных для обучения ИИ и праве владельцев веб-ресурсов контролировать доступ к своему контенту. Обвинения Cloudflare, подкрепленные детальной технической документацией, указывают на потенциально широкомасштабное нарушение отраслевых норм. Ответ Perplexity AI на эти обвинения пока не представлен публично. Разрешение этого конфликта может установить важные прецеденты для взаимодействия между быстро развивающейся индустрией искусственного интеллекта и инфраструктурой глобальной сети.