Есть интересный ответ от Джона Мюллера из Google о том, что делать с URL-адресами, которые могут отображаться дублированными из-за параметров URL-адресов, таких как UTM, в конце URL-адресов. Джон сказал, что определенно не нужно 404 таких URL-адресов, с чем, я думаю, никто не поспорит. Но он также сказал, что вы можете использовать rel=canonical, потому что именно для этого он был создан. Суть в том, что он сказал, что это, вероятно, не имеет значения для SEO.
Теперь мне пришлось пару раз прочитать ответ Джона на Реддит и, возможно, я неправильно интерпретирую последнюю часть, так что помогите мне здесь.
Вот вопрос:
Привет! Новичок в сообществе, но в SEO около 5 лет. Начал новую работу в качестве единственного SEO-менеджера и думаю о краулинговом бюджете. Просканировано около 20 тыс. неиндексированных URL-адресов по сравнению с 2 тыс. просканированных и проиндексированных URL-адресов — это не из-за ошибки, а из-за большого количества URL-адресов, специфичных для UTM/кампании, и (намеренно) страниц с ошибкой 404.
Я надеялся немного сбалансировать этот краулинговый бюджет и удалить URL-адреса UTM/кампании из сканирования через robots.txt и преобразовать некоторые из 404 в 410 (это также помогло бы с общим состоянием сайта).
Может ли кто-нибудь помочь мне понять, может ли это быть хорошей идеей / потенциально может причинить вред?
Ответ Джона 404:
Страницы, которых не существует, должны возвращать 404. Вы не получите ничего с точки зрения SEO, если сделаете их 410. Единственная причина, по которой я слышал, что я могу следовать, заключается в том, что это облегчает распознавание случайных 404-х страниц по сравнению с известными удаленными страницами как 410с. (IMO, если ваши важные страницы случайно станут 404, вы, вероятно, быстро заметите это, независимо от кода результата)
Канонический ответ Джона:
Для параметров UTM я бы просто установил rel-canonical и оставил их в покое. rel canonical не заставит их все исчезнуть (как и robots.txt), но это более чистый подход, чем блокировка (по сути, для этого и был создан rel canonical).
Хорошо, пока не используйте 404 в этой ситуации, но используйте rel=canonical — понятно.
Затем Джон объяснил SEO, наверное, это не имеет значения?
Я подозреваю, что в обоих случаях вы не увидите видимых изменений на своем сайте в поиске (извините, поклонники технического SEO). Относительно канонических URL-адресов UTM, безусловно, более чистое решение, чем позволять им накапливаться и всплывать сами по себе. Раннее исправление означает, что вы не получите 10 поколений SEO-специалистов, которые будут сообщать вам о «проблеме дублирования контента» (что в любом случае не является проблемой, если они не индексируются; а когда они индексируются, они удаляются). в любом случае как дубликаты), так что я думаю, что это хорошая инвестиция в ваше будущее использование времени 🙂
Таким образом, Google, скорее всего, обработает повторяющиеся URL-адреса, параметры UTM в любом случае, даже если они их проиндексируют. Но чтобы порадовать SEO-консультантов, используйте rel=canonical? Это то, что он говорит здесь? Мне нравится этот ответ, если это его сообщение, но, может быть, я ошибся?
Обсуждение форума на Реддит.