Как настроить Clean-Param для файла robots.txt на Блоггер (Blogger)?

Столкнулся на одном из своих блогов на платформе Блоггер (Blogger) с появлением страниц-дублей с GET-параметрами. Произошло это после смены дефолтного шаблона, на сторонний. В разделе Вебмастер (Яндекс) по пути:

Диагностика -> Диагностика сайта

Появились сообщения о данных страницах:

Яндекс рекомендуем использовать директиву Clean-param в robots.txt, чтобы робот игнорировал незначащие GET-параметры и объединил все сигналы со страниц-копий на основной странице.

Если нет времени разбираться во всем самостоятельно, или понимаете, что не справитесь сами, найдите специалиста, который поможет вам решить вопрос. Защищенные сделки и доступные цены.

Как настроить свой файл robots.txt на Blogspot (Блогспот)?

Выбираем свой блог в аккаунте Блогспот (1.) и переходив в раздел «Настройки» (2.). Прокручиваем страницу «Настройки» и находим «Поисковые роботы и индексирование». Переключаем ползунок (3.) напротив параметра «Использовать собственный файл robots.txt» и нажимаем на пространство (4.) под параметром «Пользовательский файл robots.txt».

После этого, откроется небольшое окошко, в которое нам необходимо указать свои настройки (1.) для robots.txt файла на Blogspot. После внесения настроек, не забываем их сохранить (2.).

Как настроить Clean-Param для файла robots.txt на Блоггер (Blogger)?

А тут проблема. Столкнулся с тем, что при попытке указать Clean-Param в файле robots.txt для Блоггер, при попытке сохранить внесенные изменения, получал сообщение об ошибке:

Содержимое файла robots.txt не соответствует правилам форматирования.

Связано это скорее всего с тем, что Google не распознает Clean-param. Для данной задачи, Google предоставляет инструмент "Параметры URL".

Однако, без четкого понимания того, что вы будете делать, настоятельно не рекомендую использовать данный инструмент.

В нашем случае с настройкой Clean-param по рекомендации Яндекса, мы можем решить посредством закрытия от индексации URL адресов с параметрами. Для этого добавляем следующие данный в свой robots.txt файл:

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Disallow: /*?
Allow: /

Sitemap: https://имя_вашего_блога.blogspot.com/sitemap.xml

Проверить свой файл robots.txt, вы можете в Google Search Console. Добавьте свой robots.txt и укажите URL с параметром. Проверьте результат, URL должен блокироваться от индексации:

Теперь проверьте, индексируется ли ваш URL без параметров:

Аналогично, проверяем результат работы файла robots.txt для Блоггер в Вебмастер Яндекс. Для этого в кабинете Вебмастера, выбираем свой сайт и переходим в разделе «Инструменты» (1.) в параметр «Анализ robots.txt» (2.). Нажимаем «Проверить» (3.) для определения настроек файла

После, прокручиваем страницу ниже и указываем свои страницы-дубли с GET-параметрами, после чего, нажимаем «Проверить» (1.). Все ссылки с GET-параметрами, должны быть закрыты в robots.txt от индексации (2.):

Аналогично проверяем страницы без GET-параметров. В результате, страницы должны быть открыты для индексации:

После данных манипуляций и настроек файла robots.txt для Блоггер, переходим в «Проблемы сайта» (по пути «Диагностика» -> «Диагностика сайта») и напротив проблемы, нажимаем «Проверить».

Через некоторое время, мы должны получить положительный результат. В разделе «Диагностика сайта», должно пропасть сообщение о критической ошибке:

Недостатки.

Было замечено, что после создания данного файла robots.txt, Google Search Console сообщает в разделе «Покрытие» о том, что некоторые страницы были проиндексированы, несмотря на запрет индексации в robots.txt:

При проверке любой ссылки с пометкой «Предупреждение» и типом «Проиндексировано, несмотря на блокировку в файле robots.txt», мы увидим сообщение, что страница есть в индексе, хотя URL заблокирован к индексации в файле robots.txt:

При детальном просмотре, можно увидеть, что проблемы с индексацией, возникают там, где страница была проиндексирована мобильным пауком (Googlebot-Mobile):

Данная страница, имеет пометку, что она заблокирована в файле robots.txt для сканирования. При этом, она по прежнему разрешена для индексации.

Связанно это скорее всего с тем, что мобильный Googlebot-Mobile, заходил по ссылке с GET-параметром

?m=1

Так как мы, заблокировали все подобные GET-параметры в своем robots.txt, мы и получаем подобную ошибку. Примечательно и то, что если проверить этот же URL в инструменте проверки robots.txt на доступность страницы на доступность Googlebot-Mobile, мы не получим ошибки:

При этом, наша ссылка без GET-параметров. Стоит нам проверить ссылку с GET-параметром
?m=1 и мы получим блокировку индексации. Верно, именно этого мы и добивались, чтобы исключить дубли страниц. Скорее всего, мобильные Googlebot-Mobile заходят на сайт с мобильных устройств.

Заключение.

Несмотря на то, что платформа Блоггер (Blogger) не дает возможности указать в своем robots.txt директиву Clean-param, мы можем использовать обходной вариант и исправить проблемы на блоге Blogger с дублями страниц, у которых присутствуют GET-параметры.

Способ рабочий и универсальный, так как позволяет исключить дубли страниц черен настройки robots.txt как для поисковой системы Яндекс, так и для поисковика Google.

При этом, возникают проблемы сканирования страниц ботом Googlebot-Mobile. Это приводит к появлению предупреждений в Google Search Console раздела «Покрытие», что часть страниц были проиндексированы, несмотря на запрет в robots.txt. К сожалению, мне не известны способы решения данной проблемы. Если вы найдете решение для Blogger, поделитесь им в комментариях.

Другая проблема в том, что если игнорировать проблему с ошибками GET-параметрами в Яндекс. Вебмастер, вы рискуете потерять Индекс качества сайта (ИКС). У меня так понизили сайт на 10. Как только исправил проблему с GET-параметрами, ИКС вернулся обратно.

Использовать ли данное решение на своем блоге на платформе Blogger или нет, зависит от того, на какую аудиторию рассчитан ваш сайт. При получении трафика из Google, возможно и не стоит использовать данное решение. Если основной трафик у вас из Яндекса, естественно, игнорировать ошибки с GET-параметрами нельзя, так как это негативно скажется на позициях вашего сайта. В любом случае, используйте данный вариант, ТОЛЬКО если у вас появились проблемы с GET-параметрами. Если у вас их нет (не отображаются ошибки в Яндекс Вебмастер), оставляйте файл robots.txt по умолчанию и ничего не изменяйте!

И помните, что если позволяют финансы, лучше найдите специалиста.

Добавлено 07.11.2021

У меня в поиске Google, начали появляться страницы без описания, с указанием на справку Google.

Проверив Вебмастер Яндекс и убедившись, что пропали дубли страниц, было принято решение, отключить вышеприведенный robots.txt, из-за проблем с индексацией сайта мобильным ботом Google. При этом, у меня не было указано в шаблоне блога канонические ссылки на страницах. Как так вышло, даже не знаю. В связи с этим, прописал код в шаблон:

<link expr:href='data:blog.url.canonical' rel='canonical'/>

Для добавления вышеприведенного кода, переходим в «Тема» (1.) и нажимаем на раскрывающийся (2.) список (напротив «НАСТРОИТЬ»):

В выпадающем списке, выбираем «Изменить HTML»:

И вставляем вышеприведенный код (2.), после <head> (1.):

Это позволит нам сообщить поисковым системам, что все data:blog.url (ссылки) являются каноническими.

После, ищем все

data:blog.url

в коде и добавляем

.canonical

Для этого, нажимаем в редакторе кода CTRL -> F и в появившемся поле поиска (1.), указываем:

data:blog.url

Нажимаем Enter и в найденных результатах, добавляем:

.canonical

После внесения изменений, не забываем сохранить правки:

В результате, наши страницы, должны показывать канонический адрес, без GET-параметров (?m=1, ?m=0, ?comments_89917 и т. п.):

Мной было также обнаружено, что в стандартных новых темах Blogger, прописан канонический адрес в шаблоне.

Таким образом, как и указывал в начале поста, если будете использовать сторонние темы, всегда их старайтесь проверять.

На данный момент, пока наблюдаю за ситуацией. Если дублей больше не появится с GET-параметрами в Яндексе или Google, отпишусь в данной заметке. Если будет новая информация, обязательно ее добавлю.

Если у вас есть свое решение данной проблемы, пожалуйста, оставляйте комментарии. Ваш опыт и информация, может помочь другим пользователям. Успехов.

Добавлено 04.12.2021

В панели Яндекс Вебмастер, наблюдаю картину, как страницы с GET-параметрами, автоматически исключаются из индекса и не дублируются, так как не являются каноническими страницами.

Исключение дублей за счет канонической ссылки

Аналогичная ситуация и в Google Search Console. Таким образом, еще раз рекомендую владельцам сайтов на платформе Блоггер, не использовать файл роботс (robots.txt) приведенный в начале заметки, а указать канонический (canonical) адрес для страниц. Это позволит сохранить нормальную индексацию блога мобильным роботом Google. Если будут уточнения и дополнения из вашего опыта, пожалуйста, делитесь ими в комментариях. Ваш опыт, будет полезен и другим. Заранее, спасибо и успехов в продвижении блогов на Блогспот.

Добавлено 18.01.2022

Если у вас сообщения с GET-параметрами следующего вида на конце url-страниц:

?showComment=

Пример на скрине:

Можно использовать следующий robots.txt для Блоггера:

User-agent: *
Disallow:
Disallow: /search
Disallow: /?showComment=
Sitemap: https://pc103help.blogspot.com/sitemap.xml

Добавлено 02.05.2022

Мне попалось интересное и полезное видео, по настройке файла robots.txt на Блоггер. Ставка на поисковую систему в Яндекс.

Добавляем файл Robots в Blogger для индексации блога в Яндекс:

И будет полезно ознакомится с новой заметкой, которая позволит ускорить индексацию сайта в поисковой системе Google: Как проиндексировать сайт в Google и повысить видимость? Способ для любых сайтов.

iThyx24 ноября 2021 г. в 13:47
Спасибо.
НЕ стал даже писать в поддержку Яндекса, не любят они Гугл с его непонятными ограничениями
ОтветитьУдалить
Ответы
Admin5 января 2022 г. в 17:18
Здравствуйте. Если вы, добавили код и сразу хотите получить результа - не выйдет. Необходимо выждать время, пока Яндекс обновит информацию. Обычно, это занимает до 1-2 недели.

Уточните, пожалуйста, вы отправили информацию через Яндекс Вебмастер на перепроверку проблемы? Сколько времени прошло, после этого?

Ваш опыт и информация, могут быть полезны другим пользователям.
ОтветитьУдалить
Ответы
Admin11 января 2022 г. в 21:17
Чаще всего, после нажатия на проверку, должно отображаться такое сообщение:
«Проверка началась [число, месяц], она может занять до 14 дней»
Кнопка «Проверить», будет неактивна (ее нельзя будет нажать).
Смотрите скрин.

Если проверка была закончена успешно, сообщение об ошибке, должно исчезнуть.

Если проверка была завершена и ошибки есть по прежнему, будет доступна снова кнопка «Проверить».

Что на данный момент, в вашем случае? Первый или третий вариант?
ОтветитьУдалить
Ответы
Admin12 января 2022 г. в 14:24
На данный момент, у вас шаблон используется адаптивный, при этом, активен и стандартный шаблон для мобильных устройств. Это видно на скрине, где отображается GET-параметр: ?m=1

Скорее всего ,у вас в этом и заключается проблема. Проведите эксперимент. Отключите стандартный шаблон для мобильных устройств, выбрав свой адаптивный шаблон для отображения и на мобильных устройствах. Для этого, перейдите в настройки своим блогом->Темы->Моя тема и выбираем Настроить. В новом окне, выбираем Настройки для мобильных устройств->Для компьютера->Сохранить. Принцип, показан на скрине 1 и скрине 2.

Именно по такому принципу, у меня настроены все блоги на платформе blogger. Если Яндекс сообщит об ошибке, перепроверьте еще раз. После, как вариант, попробуйте использовать файл robots.txt:

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Disallow: /*?
Allow: /

Sitemap: https://имя_вашего_блога.blogspot.com/sitemap.xml

Пробуйте, так как у вас сайт с персональным доменом, возможно, проблем с индексацией Google роботами и не будет, как в моем случае из данной заметки.

Будет хорошо, если после всего, вы отпишитесь по результатам. Ваш опыт, обязательно будет полезен другим пользователям. Заранее, спасибо.
ОтветитьУдалить
Ответы
Admin14 января 2022 г. в 19:22
Здравствуйте.
Попробуйте использовать файл robots.txt, который из данной заметки:

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Disallow: /*?
Allow: /

Sitemap: https://имя_вашего_блога.blogspot.com/sitemap.xml

После, повторно выберите проверку на исправление дублей с GET-параметрами. По идее, должно помочь. Во всяком случае, так было у меня, о чем подробно описал в своей заметке. Пожалуйста, отпишитесь по результатам.

По поводу description, в некоторых ситуациях, Яндекс приводит ссылку на проблемные страницы. Как понимаю, в вашем случае, такого нет?
ОтветитьУдалить
Ответы
Admin14 января 2022 г. в 23:26
Честно, не знаю что и порекомендовать вам. В моем случае, мне помог файл robots.txt с тем содержанием, что привел в заметке и в комментариях, избавится от GET-параметров. В последствии, вернул обратно стандартный файл robots.txt, прописав перед этим канонический адрес в коде блога.

Возможно, проанализируйте мой опыт из заметки и попробуйте его повторить в четкости:
1. Прописываем канонический адрес (вы уже прописали)
2. Создаем свой robots.txt для Блоггер (вы уже сделали)
3. Повторно проверяем исправление ошибок в Яндекс. Вебмастер

Уточните, вы проверяли в Яндекс. Вебмастер, после создания файла robots.txt, те страницы с GET-параметрами, которые у вас там указаны, они после создания нового robots.txt, блокируются? Речь идет об инструменте «Анализ robots.txt» в Яндекс. Вебмастер.

И второй момент. А какой GET-параметр у вас указан в отчете Яндекс. Вебмастер об ошибках с дублями страниц?
ОтветитьУдалить
Ответы
Admin15 января 2022 г. в 09:52
Ваши скрины, не отобразились в вашем комментарии.
Привожу ваши скрины ниже:
Ваш скрин 1
Ваш скрин 2

Из первого скрина вижу, что у вас больше нет проблем с дублями страниц у которых есть
GET-параметры. Во всяком случае, из вашего первого скрина, вижу ситуацию так.

Из второго скрина, не вижу результатов
проверки страниц с GET-параметрами.

На первом скрине, информация об отсутствии метатегов и одинаковых заголовков с описанием страниц, содержит ссылки на проблемные страницы. Проверьте данные ссылки и исправьте проблемы на тех страницах, что указаны в отчете Яндекс. Вебмастер.
ОтветитьУдалить
Ответы
Александр Альпидовский25 мая 2023 г. в 10:15
Большое спасибо за актуальную информацию. Единственная статья, которая помогла понять суть проблемы и применить решение.
ОтветитьУдалить
Ответы