Боты и краулеры (user-agent) искусственного интеллекта (AI)

bot

В статье переставлен список ботов, которые могут просматривать ваш контент для обучения ИИ, например, для обучения моделей.

Как блокировать ботов

Список ботов

Список периодически обновляется.

Amazonbot

Amazonbot - это веб-краулер Amazon, используемый для улучшения сервисов Amazon, например, для того, чтобы Alexa могла отвечать вопросы. В целом абсолютно бесполезен, врядли принесет трафик.

GoogleOther

GoogleOther - краулер Google и используемый для обучения ИИ.

GPTBot

GPTBot - бот OpenIA используемый для обучения Chat GPT

OAI-SearchBot

OAI-SearchBot - предназначен для поиска. OAI-SearchBot используется для размещения ссылок на веб-сайты и их появления в результатах поиска в поисковых функциях ChatGPT.

Он не используется для сканирования контента с целью обучения генеративных моделей фреймворка OpenAI AI.

ChatGPT-User

ChatGPT-User - предназначен для действий пользователей в ChatGPT и пользовательских GPT. Когда пользователи задают ChatGPT или CustomGPT вопрос, он может посетить веб-страницу для ответа и включить ссылку на источник в свой ответ. Пользователи ChatGPT также могут взаимодействовать с внешними приложениями через GPT Actions. ChatGPT-User определяет, к каким сайтам могут быть сделаны эти пользовательские запросы.

Он не используется для автоматического поиска информации в Интернете, а также для поиска контента для обучения генеративного ИИ.

PerplexityBot

PerplexityBot - это веб-краулер, используемый компанией Perplexity для индексации результатов поиска результатов, которые позволяют их ИИ-помощнику отвечать на вопросы пользователей. На сайте Ответы помощника обычно содержат ссылки на веб-сайт в виде встроенных источники.

ClaudeBot

ClaudeBot - бот искусственного интеллекта Claude, разработки компании Anthropic из США. IP адреса постоянно меняются, при этом игнорирует robots.txt

Бот постоянно сканирет различные материалы, скачивал целые массивы данных, создавая нагрузку на веб сервер.

SBIntuitionsBot

SBIntuitionsBot - это краулер, управляемый компанией SB Intuitions Corp. Использует собранные данные для разработки ИИ и анализа информации.

MistralAI

Модуль Mistral для сбора цитат в реальном времени для помощника "Le Chat"

You.com

Поисковый робот, стоящий за поиском и браузерным помощником на основе искусственного интеллекта You.com, индексирующий контент для получения ответов в режиме реального времени.

Timpi

Децентрализованный поисковый стартап с низким трафиком, нацеленный на создание распределенной сети индексации.

Omgili

Основное внимание уделяется индексации форумов, комментариев и досок обсуждений для более глубокого понимания обсуждений.

Diffbot

Преобразует веб-страницы в структурированные данные, такие как списки продуктов, статьи или часто задаваемые вопросы для конвейеров машинного обучения.

Common Crawl

Индексирует общедоступные веб-сайты для открытого набора данных Common Crawl, используемого многими проектами ИИ с открытым исходным кодом.

Allen Institute

Академический поисковый робот, на котором работает Semantic Scholar и другие исследовательские инструменты ИИ Института Аллена.

Cohere

Собирает текстовые данные для языковых моделей Cohere, помогая совершенствовать генерацию текстов большого объема.

DuckDuckGo

Собирает основанные на фактах фрагменты для DuckAssist, частной функции ответов ИИ DuckDuckGo.

ByteDance

Обеспечивает поиск в TikTok, субтитры CapCut AI и заголовки Toutiao путем сканирования веб-страниц по всему миру.

Apple

Поисковый робот, собирающий данные для будущих моделей искусственного интеллекта Apple

Google

Используется для индексации Gemini и ИИ за пределами стандартного поиска; заблокируйте, чтобы исключить ваш контент из ответов ИИ Google.

Anthropic

Основной антропологический поисковый робот, собирающий данные из обширной сети для разработки модели Клода.

 

Другие боты

Список "Плохих" ботов можно найти в соответствующей записи.

Комментарии: 0