Как настроить Clean-Param для файла robots.txt на Блоггер (Blogger)?

Столкнулся на одном из своих блогов на платформе Блоггер (Blogger) с появлением страниц-дублей с GET-параметрами. Произошло это после смены дефолтного шаблона, на сторонний. В разделе Вебмастер (Яндекс) по пути:

Диагностика -> Диагностика сайта

Появились сообщения о данных страницах:


Яндекс рекомендуем использовать директиву Clean-param в robots.txt, чтобы робот игнорировал незначащие GET-параметры и объединил все сигналы со страниц-копий на основной странице.

Если нет времени разбираться во всем самостоятельно, или понимаете, что не справитесь сами, найдите специалиста, который поможет вам решить вопрос. Защищенные сделки и доступные цены.

Как настроить свой файл robots.txt на Blogspot (Блогспот)?

Выбираем свой блог в аккаунте Блогспот (1.) и переходив в раздел «Настройки» (2.). Прокручиваем страницу «Настройки» и находим «Поисковые роботы и индексирование». Переключаем ползунок (3.) напротив параметра «Использовать собственный файл robots.txt» и нажимаем на пространство (4.) под параметром «Пользовательский файл robots.txt».


После этого, откроется небольшое окошко, в которое нам необходимо указать свои настройки (1.) для robots.txt файла на Blogspot. После внесения настроек, не забываем их сохранить (2.).

Как настроить Clean-Param для файла robots.txt на Блоггер (Blogger)?

А тут проблема. Столкнулся с тем, что при попытке указать Clean-Param в файле robots.txt для Блоггер, при попытке сохранить внесенные изменения, получал сообщение об ошибке:

Содержимое файла robots.txt не соответствует правилам форматирования.

Связано это скорее всего с тем, что Google не распознает Clean-param. Для данной задачи, Google предоставляет инструмент "Параметры URL".

Однако, без четкого понимания того, что вы будете делать, настоятельно не рекомендую использовать данный инструмент.

В нашем случае с настройкой Clean-param по рекомендации Яндекса, мы можем решить посредством закрытия от индексации URL адресов с параметрами. Для этого добавляем следующие данный в свой robots.txt файл:

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Disallow: /*?
Allow: /

Sitemap: https://имя_вашего_блога.blogspot.com/sitemap.xml

Проверить свой файл robots.txt, вы можете в Google Search Console. Добавьте свой robots.txt и укажите URL с параметром. Проверьте результат, URL должен блокироваться от индексации:

Теперь проверьте, индексируется ли ваш URL без параметров:

Аналогично, проверяем результат работы файла robots.txt для Блоггер в Вебмастер Яндекс. Для этого в кабинете Вебмастера, выбираем свой сайт и переходим в разделе «Инструменты» (1.) в параметр «Анализ robots.txt» (2.). Нажимаем «Проверить» (3.) для определения настроек файла

После, прокручиваем страницу ниже и указываем свои страницы-дубли с GET-параметрами, после чего, нажимаем «Проверить» (1.). Все ссылки с GET-параметрами, должны быть закрыты в robots.txt от индексации (2.):

Аналогично проверяем страницы без GET-параметров. В результате, страницы должны быть открыты для индексации:

После данных манипуляций и настроек файла robots.txt для Блоггер, переходим в «Проблемы сайта» (по пути «Диагностика» -> «Диагностика сайта») и напротив проблемы, нажимаем «Проверить».

Через некоторое время, мы должны получить положительный результат. В разделе «Диагностика сайта», должно пропасть сообщение о критической ошибке:

Недостатки.

Было замечено, что после создания данного файла robots.txt, Google Search Console сообщает в разделе «Покрытие» о том, что некоторые страницы были проиндексированы, несмотря на запрет индексации в robots.txt:


При проверке любой ссылки с пометкой «Предупреждение» и типом «Проиндексировано, несмотря на блокировку в файле robots.txt», мы увидим сообщение, что страница есть в индексе, хотя URL заблокирован к индексации в файле robots.txt:

При детальном просмотре, можно увидеть, что проблемы с индексацией, возникают там, где страница была проиндексирована мобильным пауком (Googlebot-Mobile):


Данная страница, имеет пометку, что она заблокирована в файле robots.txt для сканирования. При этом, она по прежнему разрешена для индексации.

Связанно это скорее всего с тем, что мобильный Googlebot-Mobile, заходил по ссылке с GET-параметром 

?m=1

Так как мы, заблокировали все подобные GET-параметры в своем robots.txt, мы и получаем подобную ошибку. Примечательно и то, что если проверить этот же URL в инструменте проверки robots.txt на доступность страницы на доступность Googlebot-Mobile, мы не получим ошибки:


При этом, наша ссылка без GET-параметров. Стоит нам проверить ссылку с GET-параметром
?m=1 и мы получим блокировку индексации. Верно, именно этого мы и добивались, чтобы исключить дубли страниц. Скорее всего, мобильные Googlebot-Mobile заходят на сайт с мобильных устройств.

Заключение.

Несмотря на то, что платформа Блоггер (Blogger) не дает возможности указать в своем robots.txt директиву Clean-param, мы можем использовать обходной вариант и исправить проблемы на блоге Blogger с дублями страниц, у которых присутствуют GET-параметры.

Способ рабочий и универсальный, так как позволяет исключить дубли страниц черен настройки robots.txt как для поисковой системы Яндекс, так и для поисковика Google.

При этом, возникают проблемы сканирования страниц ботом Googlebot-Mobile. Это приводит к появлению предупреждений в Google Search Console раздела «Покрытие», что часть страниц были проиндексированы, несмотря на запрет в robots.txt. К сожалению, мне не известны способы решения данной проблемы. Если вы найдете решение для Blogger, поделитесь им в комментариях.

Другая проблема в том, что если игнорировать проблему с ошибками GET-параметрами в Яндекс. Вебмастер, вы рискуете потерять Индекс качества сайта (ИКС). У меня так понизили сайт на 10. Как только исправил проблему с GET-параметрами, ИКС вернулся обратно.

Использовать ли данное решение на своем блоге на платформе Blogger или нет, зависит от того, на какую аудиторию рассчитан ваш сайт. При получении трафика из Google, возможно и не стоит использовать данное решение. Если основной трафик у вас из Яндекса, естественно, игнорировать ошибки с GET-параметрами нельзя, так как это негативно скажется на позициях вашего сайта. В любом случае, используйте данный вариант, ТОЛЬКО если у вас появились проблемы с GET-параметрами. Если у вас их нет (не отображаются ошибки в Яндекс Вебмастер), оставляйте файл robots.txt по умолчанию и ничего не изменяйте!

И помните, что если позволяют финансы, лучше найдите специалиста.

Добавлено 07.11.2021

У меня в поиске Google, начали появляться страницы без описания, с указанием на справку Google.


Проверив Вебмастер Яндекс и убедившись, что пропали дубли страниц, было принято решение, отключить вышеприведенный robots.txt, из-за проблем с индексацией сайта мобильным ботом Google. При этом, у меня не было указано в шаблоне блога канонические ссылки на страницах. Как так вышло, даже не знаю. В связи с этим, прописал код в шаблон:

<link expr:href='data:blog.url.canonical' rel='canonical'/>

Для добавления вышеприведенного кода, переходим в «Тема» (1.) и нажимаем на раскрывающийся (2.) список (напротив «НАСТРОИТЬ»):

В выпадающем списке, выбираем «Изменить HTML»:

И вставляем вышеприведенный код (2.), после <head> (1.):


Это позволит нам сообщить поисковым системам, что все data:blog.url (ссылки) являются каноническими. 

После, ищем все 

data:blog.url

в коде и добавляем

.canonical

Для этого, нажимаем в редакторе кода CTRL -> F и в появившемся поле поиска (1.), указываем:

data:blog.url

Нажимаем Enter и в найденных результатах, добавляем:

.canonical

После внесения изменений, не забываем сохранить правки:

 
В результате, наши страницы, должны показывать канонический адрес, без GET-параметров (?m=1?m=0, ?comments_89917 и т. п.):

Мной было также обнаружено, что в стандартных новых темах Blogger, прописан канонический адрес в шаблоне.

 
Таким образом, как и указывал в начале поста, если будете использовать сторонние темы, всегда их старайтесь проверять.

На данный момент, пока наблюдаю за ситуацией. Если дублей больше не появится с GET-параметрами в Яндексе или Google, отпишусь в данной заметке. Если будет новая информация, обязательно ее добавлю.

Если у вас есть свое решение данной проблемы, пожалуйста, оставляйте комментарии. Ваш опыт и информация, может помочь другим пользователям. Успехов.

Добавлено 04.12.2021

В панели Яндекс Вебмастер, наблюдаю картину, как страницы с GET-параметрами, автоматически исключаются из индекса и не дублируются, так как не являются каноническими страницами. 

Исключение дублей за счет канонической ссылки

Аналогичная ситуация и в Google Search Console. Таким образом, еще раз рекомендую владельцам сайтов на платформе Блоггер, не использовать файл роботс (robots.txt) приведенный в начале заметки, а указать канонический (canonical) адрес для страниц. Это позволит сохранить нормальную индексацию блога мобильным роботом Google. Если будут уточнения и дополнения из вашего опыта, пожалуйста, делитесь ими в комментариях. Ваш опыт, будет полезен и другим. Заранее, спасибо и успехов в продвижении блогов на Блогспот.

Добавлено 18.01.2022

Если у вас сообщения с GET-параметрами следующего вида на конце url-страниц:

?showComment=

Пример на скрине:

Можно использовать следующий robots.txt для Блоггера:

User-agent: *
Disallow:
Disallow: /search
Disallow: /?showComment=
Sitemap: https://pc103help.blogspot.com/sitemap.xml

Добавлено 02.05.2022

Мне попалось интересное и полезное видео, по настройке файла robots.txt на Блоггер. Ставка на поисковую систему в Яндекс. 

Добавляем файл Robots в Blogger для индексации блога в Яндекс:

И будет полезно ознакомится с новой заметкой, которая позволит ускорить индексацию сайта в поисковой системе Google: Как проиндексировать сайт в Google и повысить видимость? Способ для любых сайтов.

9 Комментарии

  1. Спасибо.
    НЕ стал даже писать в поддержку Яндекса, не любят они Гугл с его непонятными ограничениями

    ОтветитьУдалить
    Ответы
    1. Спасибо, что поделились результатом.

      Замечу, что нужно аккуратно использовать настройки robots.txt

      В дополнении от 07.11.2021 к данной заметки указал, что решил отказаться использовать данный способ борьбы со страницами у которых есть GET-параметры. Связанно это с тем, что в Google Search Console начали у меня появляться сообщения о проблеме индексации страниц мобильным роботом Google.

      Проверьте, у вас прописан в коде блога канонический адрес страниц?
      Это позволит не используя свой файл robots.txt, бороться с дублями страниц, у которых есть GET-параметры. На данный момент наблюдаю, что Яндекс нормально индексирует сайт и не сообщает о дублях страниц. Аналогичная картина и со стороны Google.

      Повторюсь, что в некоторых шаблонах Blogger, бывает не прописан в коде канонический адрес страницы. Именно это и породило в моем случае дубли страниц, за что мне Яндекс даже понизил ИКС (после исправления проблемы - вернул). Как проверить и прописать канонический адрес на страницу, указанно выше в заметке с добавлением информации от 07.11.2021.

      Удалить
  2. Здравствуйте. Если вы, добавили код и сразу хотите получить результа - не выйдет. Необходимо выждать время, пока Яндекс обновит информацию. Обычно, это занимает до 1-2 недели.

    Уточните, пожалуйста, вы отправили информацию через Яндекс Вебмастер на перепроверку проблемы? Сколько времени прошло, после этого?

    Ваш опыт и информация, могут быть полезны другим пользователям.

    ОтветитьУдалить
  3. Чаще всего, после нажатия на проверку, должно отображаться такое сообщение:
    «Проверка началась [число, месяц], она может занять до 14 дней»
    Кнопка «Проверить», будет неактивна (ее нельзя будет нажать).
    Смотрите скрин.

    Если проверка была закончена успешно, сообщение об ошибке, должно исчезнуть.

    Если проверка была завершена и ошибки есть по прежнему, будет доступна снова кнопка «Проверить».

    Что на данный момент, в вашем случае? Первый или третий вариант?

    ОтветитьУдалить
  4. На данный момент, у вас шаблон используется адаптивный, при этом, активен и стандартный шаблон для мобильных устройств. Это видно на скрине, где отображается GET-параметр: ?m=1

    Скорее всего ,у вас в этом и заключается проблема. Проведите эксперимент. Отключите стандартный шаблон для мобильных устройств, выбрав свой адаптивный шаблон для отображения и на мобильных устройствах. Для этого, перейдите в настройки своим блогом->Темы->Моя тема и выбираем Настроить. В новом окне, выбираем Настройки для мобильных устройств->Для компьютера->Сохранить. Принцип, показан на скрине 1 и скрине 2.

    Именно по такому принципу, у меня настроены все блоги на платформе blogger. Если Яндекс сообщит об ошибке, перепроверьте еще раз. После, как вариант, попробуйте использовать файл robots.txt:

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Disallow: /*?
    Allow: /

    Sitemap: https://имя_вашего_блога.blogspot.com/sitemap.xml

    Пробуйте, так как у вас сайт с персональным доменом, возможно, проблем с индексацией Google роботами и не будет, как в моем случае из данной заметки.

    Будет хорошо, если после всего, вы отпишитесь по результатам. Ваш опыт, обязательно будет полезен другим пользователям. Заранее, спасибо.

    ОтветитьУдалить
  5. Здравствуйте.
    Попробуйте использовать файл robots.txt, который из данной заметки:

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Disallow: /*?
    Allow: /

    Sitemap: https://имя_вашего_блога.blogspot.com/sitemap.xml

    После, повторно выберите проверку на исправление дублей с GET-параметрами. По идее, должно помочь. Во всяком случае, так было у меня, о чем подробно описал в своей заметке. Пожалуйста, отпишитесь по результатам.

    По поводу description, в некоторых ситуациях, Яндекс приводит ссылку на проблемные страницы. Как понимаю, в вашем случае, такого нет?

    ОтветитьУдалить
  6. Честно, не знаю что и порекомендовать вам. В моем случае, мне помог файл robots.txt с тем содержанием, что привел в заметке и в комментариях, избавится от GET-параметров. В последствии, вернул обратно стандартный файл robots.txt, прописав перед этим канонический адрес в коде блога.

    Возможно, проанализируйте мой опыт из заметки и попробуйте его повторить в четкости:
    1. Прописываем канонический адрес (вы уже прописали)
    2. Создаем свой robots.txt для Блоггер (вы уже сделали)
    3. Повторно проверяем исправление ошибок в Яндекс. Вебмастер

    Уточните, вы проверяли в Яндекс. Вебмастер, после создания файла robots.txt, те страницы с GET-параметрами, которые у вас там указаны, они после создания нового robots.txt, блокируются? Речь идет об инструменте «Анализ robots.txt» в Яндекс. Вебмастер.

    И второй момент. А какой GET-параметр у вас указан в отчете Яндекс. Вебмастер об ошибках с дублями страниц?

    ОтветитьУдалить
  7. Ваши скрины, не отобразились в вашем комментарии.
    Привожу ваши скрины ниже:
    Ваш скрин 1
    Ваш скрин 2

    Из первого скрина вижу, что у вас больше нет проблем с дублями страниц у которых есть
    GET-параметры. Во всяком случае, из вашего первого скрина, вижу ситуацию так.

    Из второго скрина, не вижу результатов
    проверки страниц с GET-параметрами.

    На первом скрине, информация об отсутствии метатегов и одинаковых заголовков с описанием страниц, содержит ссылки на проблемные страницы. Проверьте данные ссылки и исправьте проблемы на тех страницах, что указаны в отчете Яндекс. Вебмастер.

    ОтветитьУдалить
  8. Большое спасибо за актуальную информацию. Единственная статья, которая помогла понять суть проблемы и применить решение.

    ОтветитьУдалить
Новые Старые