Джон Мюллер из Google недавно ответил на вопрос о том, существует ли процентный порог дублирования контента, который Google использует для выявления и фильтрации дублированного контента.
Какой процент соответствует дублированному контенту?
На самом деле разговор начался на Facebook, когда Дуэйн Форрестер (@DuaneForrester) спросил, знает ли кто-нибудь, публикует ли какая-либо поисковая система процент перекрытия контента, при котором контент считается дублированным.
Билл Хартцер (англ.Бхарзер) обратился к Твиттеру, чтобы задать вопрос Джону Мюллеру, и получил почти немедленный ответ.
«Эй, @johnmu, есть ли процент дублированного контента?
Например, должны ли мы стремиться к тому, чтобы страницы были уникальными как минимум на 72,6% по сравнению с другими страницами на нашем сайте?
Google вообще это измеряет?»
Джон Мюллер из Google ответил:
Нет никакого числа (к тому же, как вы все равно его измеряете?)
— 🌽〈ссылка href=//johnmu.com rel=canonical 〉🌽 (@JohnMu) 23 сентября 2022 г.
Как Google обнаруживает дублированный контент?
Методология Google для обнаружения дублированного контента остается удивительно похожей на протяжении многих лет.
Еще в 2013 году Мэтт Каттс (@mattcutts), инженер-программист в то время в Google опубликовано официальное видео Google описание того, как Google обнаруживает дублированный контент.
Он начал видео, заявив, что большая часть интернет-контента дублируется и что это нормально.
«Важно понимать, что если вы посмотрите на контент в Интернете, примерно 25% или 30% всего контента в Интернете является дублирующимся контентом.
…Люди будут цитировать абзац из блога, а затем ссылаться на блог и тому подобное».
Далее он сказал, что, поскольку так много дублированного контента невиновно и не содержит намерений спама, Google не будет наказывать этот контент.
По его словам, наказание веб-страниц за дублированный контент отрицательно скажется на качестве результатов поиска.
Что делает Google, когда находит повторяющийся контент:
«…попробуйте сгруппировать все это вместе и относиться к этому как к одному фрагменту контента».
Мэтт продолжил:
«Это просто рассматривается как нечто, что нам нужно соответствующим образом сгруппировать. И нам нужно убедиться, что он ранжируется правильно».
Он объяснил, что затем Google выбирает, какую страницу показывать в результатах поиска, и отфильтровывает повторяющиеся страницы, чтобы улучшить взаимодействие с пользователем.
Как Google обрабатывает дублированный контент — версия 2020 г.
Перенесемся в 2020 год, и Google опубликовал эпизод подкаста Search Off the Record, в котором та же тема описана удивительно похожим языком.
Здесь соответствующий раздел этого подкаста с 06:44 минуты начала серии:
«Гэри Иллиес: И теперь мы подошли к следующему шагу, который на самом деле является канонизацией и обнаружением дубликатов.
Мартин Сплитт: Разве это не то же самое, что и обнаружение дубликатов и канонизация?
Гэри Иллиес: [00:06:56] Ну, это не так, верно? Потому что сначала вы должны обнаружить дубликаты, по сути сгруппировать их вместе, говоря, что все эти страницы являются дубликатами друг друга,
а затем вам нужно найти главную страницу для всех из них.…И это канонизация.
Итак, у вас есть дублирование, которое является целым термином, но внутри него у вас есть построение кластера, как создание дублирующего кластера, и канонизация. “
Затем Гэри объясняет в технических терминах, как именно они это делают. По сути, Google на самом деле не смотрит на проценты точно, а скорее сравнивает контрольные суммы.
Можно сказать, что контрольная сумма представляет собой представление содержимого в виде последовательности цифр или букв. Таким образом, если содержимое дублируется, то последовательность чисел контрольной суммы будет аналогичной.
Вот как Гэри объяснил это:
«Итак, для обнаружения обмана мы пытаемся обнаружить обман.
И то, как мы делаем это, возможно, то же, что и большинство людей в других поисковых системах, то есть, в основном, сокращает содержимое до хэша или контрольной суммы, а затем сравнивает контрольные суммы».
Гэри сказал, что Google делает это так, потому что это проще (и, очевидно, точнее).
Google обнаруживает дублированный контент с помощью контрольных сумм
Таким образом, когда речь идет о дублирующемся контенте, это, вероятно, не вопрос процентного порога, где есть число, при котором контент считается дублированным.
Вместо этого дублированный контент обнаруживается с представлением контента в виде контрольной суммы, а затем эти контрольные суммы сравниваются.
Дополнительный вывод заключается в том, что, по-видимому, существует различие между дублированием части контента и дублированием всего контента.
Избранное изображение Shutterstock/Ezume Images