Поисковое продвижение сайтов по Москве и другим городам. Результативно, надёжно и недорого!

телефон

8-904-9777-994

Ежедневно с 8-00 до 20-00

Как найти и удалить дубли страниц с GET-параметрами

Дубли веб-страниц на сайте могут попадать в индекс машины вместо целевых веб-документов или даже замедлить их сканирование поисковым роботом. Дубли представляют страницы ресурса, содержание контента в которых полностью совпадает. Страницы с такими GET-параметрами в URL-адресе ресурса тоже могут быть дублями. Если данный параметр влияет на содержание страницы — это не дубль. А если он не меняет контент страницы, то тогда его называют незначащим и страницу стоит скрыть от индексации.

Теперь разберем подробнее, что такое незначащие GET-параметры и как найти дубли страниц с такими параметрами и удалить их.

Влияние дублей страниц с GET-параметрами на СЕО

Наличие дублей страниц на сайте с GET-параметрами не приносит никакой пользы и может негативно сказаться на сопряжение сайта с поисковой системой. Поэтому их наличие может ухудшить ранжирование. В нашей студии можно заказать поисковый аудит сайта с дальнейшим его продвижением. Наше основное направление — это продвижение сайтов по Москве в сжатые сроки и по доступным ценам. Теперь давайте рассмотрим, что же такое эти параметры более подробно.

контент

GET-параметр — это параметр, который передается серверной части в URL-адресе страницы. Он начинается с вопросительного знака. Когда адрес содержит более одного параметра, то они разделяются знаком «&» (амперсанта). Самый распространенный случай появления дублей из-за незначащих параметров — это метки для проведения веб-аналитики. Например, utm_source или utm_medium. Такими метками вебмастера привыкли помечать трафик. По факту эти адреса являются одинаковые, на них опубликован одинаковый контент. Но формально такие URLы разные, так как различаются GET-параметрами в запросе. Соответственно, и поисковый алгоритм тоже может посчитать их разными. Вот такие веб-страницы и называются дублями с незначащими GET-параметрами.

Зачем следует отслеживать дубли на сайте

Перечислим причины:

  • Скорость индексирования сайта. Когда на сайте много дублей, поисковые боты тратят больше времени и ресурсов сервера на их обход, вместо того, чтобы индексировать ценный контент. Соответственно, целевые страницы блога будут медленно попадать в поиск.
  • Отсутствие контроля. Так как поисковой бот рандомно выбирает, какой из дублей показывать на выдаче, то на нее могут попасть не те страницы, которые вам нужны.
  • Влияние на СЕО. Если такие параметры не добавлены в clean-param, то бот будет обходить эти страницы и возможно считать разными, не склеивая их. Тогда алгоритм будет получать разные сигналы по каждой из них. Если бы всех их получала одна, то она имела бы шансы показываться выше в поиске.
  • Нагрузка на сайт. Лишний обход роботом также дает нагрузку на сервер. Не стоит устранять проблему плагинами кеширования. Лучше удалить эти дубли.

Пример такого дубля

Например, на сайте по продаже пиццы на заказ есть форма заказа на конкретную пиццу или роллы. При ее отправке в url передается GET-параметр?form=pizzaoliva, — он передает информацию о том, какой заказ (пиццу) выбрал пользователь в заявке, хотя содержание страницы никак не меняется. Соответственно, поисковой робот будет тратить время на обход множества одинаковых страниц, различающихся только GET-параметрами в URL, а до целевых и важных документов ресурса доберется позже.

интернет-магазин

Другой пример — это дубли формируемые за счет фильтров в интернет-магазинах.

Как обнаружить дубли

Теперь находить одинаковые документы стало значительно легче. Зайдя в раздел «Диагностика» в ЛК Вебмастера от Яндекс появилось специальное уведомление, которое проинформирует про дубли из-за GET-параметров. Упоминание на данный момент появляется с небольшой задержкой в несколько дней. Поэтому если вы увидели в нем исправленные страницы, то не стоит паниковать — это может быть связано с задержкой обработки полученных системой инфо-данных.

скрин уведомления

Как удалить дубли с параметрами

1. Добавьте в файл robots.txt директиву Clean-param, чтобы поисковый робот не учитывал данные GET-параметры в URL. Робот Яндекса, используя эту директиву, не будет многократно сканировать повторяющийся контент. Вывод — эффективность обхода повысится, а нагрузка на сервер наоборот уменьшится.

пример работы с файлом

2. Если вы не можете добавить директиву Clean-param, укажите канонический адрес страницы, который будет участвовать в поиске. Это не уменьшит нагрузку на сервер. Поэтому лучше использовать Сlean-param как основной способ.

3. Если по каким-то причинам перечисленные варианты не подходят, тогда закройте дубли от индексации при помощи директивы Disallow. Но в таком случае поиск Яндекса не будет получать никаких сигналов с запрещенных страниц. Поэтому все равно рекомендуется использовать первый способ.