Всем привет.
За последние несколько дней серьезно увеличилась активность разных ботов, собирающих ссылки, проверяющих позиции, вообще сканящих ваши сайты.
В 99% они вам наносят только вред, сжирают все ресурсы и хостер присылает письма счастья.
На двух независимых акках вчера например было порядка 12 лямов обращений этих милых существ.
На еще одном большом сайте просто база перестала справляться.
В общем, добавляем вверх вашего корневого .htaccess
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (SemrushBot|MJ12bot|AhrefsBot|LinkpadBot) [NC] RewriteRule .* - [F,L]
Проверяем работоспособность сайтов и в логах увидите, что боты начали блокироваться до апача и им отдается 403.
Список ботов пополняйте анализируя свои логи и выкладывайте сюда, будет очень полезно.
Еще ходит DotBot с урлом __http://www.opensiteexplorer.org/dotbot - но он редиректит на __https://moz.com/link-explorer
Конечно больше всех SemrushBot наследил. Они пишут рекомендации что в robots.txt можно указать ему не индексировать сайт - но похоже они директиву эту не исполняют - нет никакой реакции. Бот продолжает перебирать несуществующие урлы на сайте.
Кстати, Игорь - твой сниппет выдавал мне и 403-ю на ботов, но иногда и цикличность какую-то и выдавал ботам 500-ю ошибку. Что есть неверно.
В логи писал странное:
Request exceeded the limit of 10 internal redirects due to probable configuration error. Use 'LimitInternalRecursion' to increase the limit if necessary. Use 'LogLevel debug' to get a backtrace.
Проверь и у себя - возможно тоже редиректит - а это еще работа лишняя для вебсервера.
Я .htaccess сделал таким:
BrowserMatchNoCase "SemrushBot" bots BrowserMatchNoCase "MJ12bot" bots BrowserMatchNoCase "AhrefsBot" bots BrowserMatchNoCase "DotBot" bots Order Allow,Deny Allow from ALL Deny from env=bots
и для ботов строго 403-ю отдает и не пускает. Больше никаких редиректов и 500-х ошибок нет.
У меня вроде не зацикливает, но да, могут быть разные настройки и другие правила...тут в любом случаи для себя лучший вариант нужен.
Спасибо за сниппет, при случаи протестирую.
robots.txt они не слушают, долбят без передышки.
DotBot у меня бывает, но больше 200 раз не стукает уже год. Но да, надо и его добавить.