Проиндексировано, несмотря на блокировку в файле robots.txt

20 октября 2020 в 22:43 11

Публикация в группе: Warehouse

Категории группы: SEO

В консоле вебмастера google есть пункт меню "Основные интернет-показатели", в нем показываются ошибки и предупреждения разные, о них вы можете прочитать в помощи.

Последнее время google меняет правила очень кардинально и robots.txt уже не защитит сайт от дублей при некоторых условиях. Вот ссылочка о конкретно описываемой ситуации когда страницы будут проиндексированы, несмотря на запрет в robots.txt.

Если вы посмотрите в этот пункт меню консоли(открыв соответствующий отчет), вы можете увидеть такую картинку, конечно если ваш сайт уже продвинулся немного.

Название предупреждения: Проиндексировано, несмотря на блокировку в файле robots.txt

Растут такие страницы просто с дикой скоростью, в моем случаи большая часть ссылок имеет параметр ?action-rcl=login. Есть конечно и другие, но на этом параметре покажу пример, как избавится от таких дублей, так как и канонический урл в данном случаи не работает(маны гугла).

В файл функций вашей темы сайта надо добавить:

// ноиндекс с параметром
function yw_noindex_follow() {
$url = $_SERVER['REQUEST_URI'];
    if (strpos($url,'?action-rcl=login') !== false) {
        echo '<meta name="robots" content="noindex, follow" />' . "\n";
    }
}
add_action( 'wp_head', 'yw_noindex_follow', 1);

Возможны вариации конечно, можно вообще оставить только "?", но это уже по необходимости, как и добавить другие варианты ссылок от дополнений или плагинов.

В итоге, исходя из рекомендаций google, мы закрываем все дубли. После проделанной операции с добавлением кода, обязательно проверить, что все гладко и запрет появляется только на нужных страницах. Далее нажать на кнопку перепроверки в консоле и ошибки исчезнут со временем, придет оповещение на почту.

Таким образом индекс сайта будет чистым и не только для гугла, но и для яндекса. Единственная защита на сегодняшний день от дублей: <meta name="robots" content="noindex, follow" />

Автор публикации

не в сети 22 часа

garry

2 293

SEO услуги, реклама, аудит сайтов, контент для сайтов.

Комментарии: 743Публикации: 73Регистрация: 04-01-2014Продаж/Покупок: 0/0

Комментариев (11)

Андрей CS 21 октября, 2020 в 06:40
Спасибо, Игорь, полезная информация.
Думаю, если на сайте используется ЧПУ, то можно вообще отсекать все get-параметры
```
add_action( 'wp_head', function() {
    if (isset($_GET) && $_GET) {
        echo '' . "\n";
    }
}, 1);
```
2

Войдите, чтобы ответить
- garry 21 октября, 2020 в 06:42
  
  О да, классное решение, Андрей! Сегодня внедрю у себя. Иначе просто ужас теперь, ни роботс, ни каноничесике не указ поисковикам. У них теперь свой ИИ и он решает, что в индекс запихивать.
  
  1
  
  Войдите, чтобы ответить
  - Андрей CS 21 октября, 2020 в 08:10
    
    с ИИ бороться бесполезно, однажды он станет еще умнее, начнет игнорировать метатеги и захватит мир, поместив его в индекс)
    
    3
    
    Войдите, чтобы ответить
    - garry 21 октября, 2020 в 08:28
      
      Пора начинать задумываться, какого цвета выбрать таблетку)
      
      2
      
      Войдите, чтобы ответить
      - Павел (Litbes) 21 октября, 2020 в 09:11
        
        ...или принять горстью все таблетки сразу.
        
        2
garry 2 декабря, 2020 в 06:23

Как показала практика, бороться с гуглом по этому вопросу невероятно сложно.
Ему вообще плевать на все директивы. Сейчас отдаю 404 и то, он умудряется лепить дубли. Но с 404 дело пошло живее.

0

Войдите, чтобы ответить
- Владимир (Otshelnik-Fm) 2 декабря, 2020 в 12:48
  
  наверно потому что они сами нейросеть бота перестали контролировать))
  "Ой, он и меня посчитал" - как в советском мультике
  
  1
  
  Войдите, чтобы ответить
  - garry 2 декабря, 2020 в 13:26
    
    Так и есть, за последнее время столько всего на вводили, что контроль утерян. А может мы давно в матрице))
    
    0
    
    Войдите, чтобы ответить
Magic Moment 28 февраля, 2021 в 10:43

Здравствуйте. А что, если на сайте присутствуют файлы для скачивания, и урл к ним имеет такой вид:
site.com/?get=filename
И при нажатии на ссылку сразу происходит скачивание файла, а не переход на другую страницу, которую можно закрыть noindex-ом
В роботсе все такие урлы закрыты, и поэтому приходит как раз такая ошибка: Проиндексировано, несмотря на блокировку в файле robots.txt
Да и на сами ссылки нацепил nofollow - и это не помогает.
Что можно сделать с такими ссылками?

0

Войдите, чтобы ответить
- garry 28 февраля, 2021 в 10:48
  
  Самый простой вариант - показывать ссылку только авторизованным пользователям.
  Прятать ссылку(маскировать и тд) на js, как вариант.
  
  0
  
  Войдите, чтобы ответить
dim 9 сентября, 2021 в 13:42

Спасибо за ценный материал!

1

Войдите, чтобы ответить

Добавить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Проиндексировано, несмотря на блокировку в файле robots.txt

Автор публикации

garry

Комментариев (11)

Добавить комментарий Отменить ответ

Поиск по товарам

Товары каталога