В статье переставлен список ботов, которые могут просматривать ваш контент для обучения ИИ, например, для обучения моделей.
Как блокировать ботов
Список ботов
Список периодически обновляется.
Amazonbot
Amazonbot - это веб-краулер Amazon, используемый для улучшения сервисов Amazon, например, для того, чтобы Alexa могла отвечать вопросы. В целом абсолютно бесполезен, врядли принесет трафик.
1 | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) |
GoogleOther
GoogleOther - краулер Google и используемый для обучения ИИ.
1 2 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/125.0.6422.175 Safari/537.36 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.6422.175 Mobile Safari/537.36 (compatible; GoogleOther) |
GPTBot
GPTBot - бот OpenIA используемый для обучения Chat GPT
1 2 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot) Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot) |
OAI-SearchBot
OAI-SearchBot - предназначен для поиска. OAI-SearchBot используется для размещения ссылок на веб-сайты и их появления в результатах поиска в поисковых функциях ChatGPT.
Он не используется для сканирования контента с целью обучения генеративных моделей фреймворка OpenAI AI.
1 2 | OAI-SearchBot/1.0; +https://openai.com/searchbot Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot) |
ChatGPT-User
ChatGPT-User - предназначен для действий пользователей в ChatGPT и пользовательских GPT. Когда пользователи задают ChatGPT или CustomGPT вопрос, он может посетить веб-страницу для ответа и включить ссылку на источник в свой ответ. Пользователи ChatGPT также могут взаимодействовать с внешними приложениями через GPT Actions. ChatGPT-User определяет, к каким сайтам могут быть сделаны эти пользовательские запросы.
Он не используется для автоматического поиска информации в Интернете, а также для поиска контента для обучения генеративного ИИ.
1 2 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot) Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot) |
PerplexityBot
PerplexityBot - это веб-краулер, используемый компанией Perplexity для индексации результатов поиска результатов, которые позволяют их ИИ-помощнику отвечать на вопросы пользователей. На сайте Ответы помощника обычно содержат ссылки на веб-сайт в виде встроенных источники.
1 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot) |
ClaudeBot
ClaudeBot - бот искусственного интеллекта Claude, разработки компании Anthropic из США. IP адреса постоянно меняются, при этом игнорирует robots.txt
Бот постоянно сканирет различные материалы, скачивал целые массивы данных, создавая нагрузку на веб сервер.
1 2 3 | claudebot Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com) Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +support@anthropic.com) |
SBIntuitionsBot
SBIntuitionsBot - это краулер, управляемый компанией SB Intuitions Corp. Использует собранные данные для разработки ИИ и анализа информации.
1 | Mozilla/5.0 (compatible; SBIntuitionsBot/0.1; +https://www.sbintuitions.co.jp/bot/) |
MistralAI
Модуль Mistral для сбора цитат в реальном времени для помощника "Le Chat"
1 | Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot) |
You.com
Поисковый робот, стоящий за поиском и браузерным помощником на основе искусственного интеллекта You.com, индексирующий контент для получения ответов в режиме реального времени.
1 | Mozilla/5.0 (compatible; YouBot (+http://www.you.com)) |
Timpi
Децентрализованный поисковый стартап с низким трафиком, нацеленный на создание распределенной сети индексации.
1 | Timpibot/0.8 (+http://www.timpi.io) |
Omgili
Основное внимание уделяется индексации форумов, комментариев и досок обсуждений для более глубокого понимания обсуждений.
1 | Mozilla/5.0 (compatible; omgili/1.0; +http://www.omgili.com/bot.html) |
Diffbot
Преобразует веб-страницы в структурированные данные, такие как списки продуктов, статьи или часто задаваемые вопросы для конвейеров машинного обучения.
1 | Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; Diffbot/0.1; +http://www.diffbot.com) |
Common Crawl
Индексирует общедоступные веб-сайты для открытого набора данных Common Crawl, используемого многими проектами ИИ с открытым исходным кодом.
1 | Mozilla/5.0 (compatible; CCBot/1.0; +http://www.commoncrawl.org/bot.html) |
Allen Institute
Академический поисковый робот, на котором работает Semantic Scholar и другие исследовательские инструменты ИИ Института Аллена.
1 | Mozilla/5.0 (compatible; AI2Bot/1.0; +http://www.allenai.org/crawler) |
Cohere
Собирает текстовые данные для языковых моделей Cohere, помогая совершенствовать генерацию текстов большого объема.
1 | Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html) |
DuckDuckGo
Собирает основанные на фактах фрагменты для DuckAssist, частной функции ответов ИИ DuckDuckGo.
1 | Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html) |
ByteDance
Обеспечивает поиск в TikTok, субтитры CapCut AI и заголовки Toutiao путем сканирования веб-страниц по всему миру.
1 | Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html) |
Apple
Поисковый робот, собирающий данные для будущих моделей искусственного интеллекта Apple
1 | Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html) |
Используется для индексации Gemini и ИИ за пределами стандартного поиска; заблокируйте, чтобы исключить ваш контент из ответов ИИ Google.
1 | Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html) |
Anthropic
Основной антропологический поисковый робот, собирающий данные из обширной сети для разработки модели Клода.
1 | Mozilla/5.0 (compatible; anthropic-ai/1.0; +http://www.anthropic.com/bot.html) |
Другие боты
Список "Плохих" ботов можно найти в соответствующей записи.