«Проиндексировано, но заблокировано robots.txt» — объяснение и исправлено!

«Проиндексировано, но заблокировано robots.txt» — объяснение и исправлено!


Проиндексировано, хотя и заблокировано robots.txt — это статус Google Search Console. Это означает, что Google не просканировал ваш URL, но тем не менее проиндексировал его.

Этот статус указывает на серьезную SEO-проблему, которую следует немедленно решить.

Какое отношение индексация имеет к robots.txt?

Статус «Проиндексирован, но заблокирован robots.txt» может сбивать с толку. Это потому, что распространено заблуждение, что директивы robots.txt могут использоваться для управления индексацией — это не так.

Статус означает, что Google проиндексировал страницу, несмотря на то, что вы намеренно или по ошибке заблокировали ее анализ.

Позвольте мне помочь вам понять взаимосвязь между файлом robots.txt и процессом индексации. Это облегчит понимание окончательного решения.

Как работают обнаружение, сканирование и индексирование?

Прежде чем страница будет проиндексирована, сканеры поисковых систем должны сначала обнаружить и просканировать ее.

На этапе обнаружения сканер узнает, что данный URL-адрес существует. Во время сканирования Googlebot посещает этот URL-адрес и собирает информацию о его содержании. Только после этого URL попадает в индекс и его можно найти среди других результатов поиска.

Псс. Этот процесс не всегда проходит гладко, но вы можете узнать, как ему помочь, прочитав наши статьи о:

Что такое robots.txt?

Вы можете заблокировать сканирование определенных URL-адресов с помощью robots.txt. Это файл, который вы можете использовать для управления тем, как робот Googlebot сканирует ваш веб-сайт. Всякий раз, когда вы добавляете в него директиву Disallow, робот Googlebot знает, что он не может посещать страницы, к которым применяется эта директива.

Но robots.txt не управляет индексацией.

Давайте рассмотрим, что происходит, когда Google получает противоречивые сигналы от вашего веб-сайта, и индексация становится беспорядочной.

Причина для Indexed, хотя и заблокирована robots.txt

Иногда Google решает проиндексировать обнаруженную страницу, несмотря на то, что не может ее просканировать и понять ее содержание.

Таблица, показывающая, чем ситуация со статусом отличается от обычного процесса индексации.

В этом случае Google обычно руководствуется большое количество ссылок, ведущих на страницу, заблокированную robots.txt.

Ссылки переводятся в рейтинг PageRank. Google вычисляет его, чтобы оценить, насколько важна данная страница. Алгоритм PageRank учитывает как внутренние, так и внешние ссылки.

Когда в ваших ссылках есть беспорядок, и Google видит, что запрещенная страница имеет высокое значение PageRank, он может решить, что страница достаточно значима, чтобы поместить ее в индекс.

READ  Ожидается, что Flasko (FLSK) вырастет в 150 раз в 2022 году, поскольку держатели Dogecoin (DOGE) и Shiba Inu (SHIB) делают хедж-ставки

Однако в индексе будет храниться только пустой URL-адрес без информации о содержимом, поскольку это содержимое не было просканировано.

Почему Indexed, хотя и заблокированный robots.txt, плохо влияет на SEO?

Статус «Индекс, хотя и заблокирован robots.txt» — серьезная проблема. Это может показаться относительно безобидным, но это может саботировать вашу поисковую оптимизацию двумя важными способами.

Плохое отображение в поиске

Если вы заблокировали данную страницу по ошибке, проиндексировано, хотя и заблокировано robots.txt, это не значит, что вам повезло, и Google исправил вашу ошибку.

Страницы, проиндексированные без сканирования, не будут выглядеть привлекательно в результатах поиска. Google не сможет отображать:

  • Тег заголовка (вместо этого он будет автоматически генерировать заголовок из URL-адреса или информации, предоставленной страницами, которые ссылаются на вашу страницу),
  • Мета-описание,
  • Любая дополнительная информация в виде расширенных результатов.

Без этих элементов пользователи не будут знать, чего ожидать после входа на страницу, и могут выбрать конкурирующие веб-сайты, резко снижает CTR.

Вот пример — один из собственных продуктов Google:

Скриншот: Google Jamboard выглядит непривлекательно в поиске.

Google Jamboard заблокирован от сканирования, но с почти 20 000 ссылок с других веб-сайтов (по данным Ahrefs) Google все еще проиндексировал его.

Пока страница ранжируется, она отображается без какой-либо дополнительной информации. Это потому, что Google не смог просканировать его и собрать какую-либо информацию для отображения. Он показывает только URL-адрес и основной заголовок, основанный на том, что Google нашел на других веб-сайтах, которые ссылаются на Jamboard.

Чтобы узнать, есть ли на вашей странице та же проблема и есть ли она «Индексирована, хотя и заблокирована robots.txt», o зайдите в консоль поиска Google и проверьте ее в инструменте проверки URL.

Скриншот инструмента проверки URL.

Нежелательный трафик

Если вы намеренно использовали директиву Disallow в файле robots.txt для определенной страницы, вы не хотите, чтобы пользователи могли найти эту страницу в Google. Предположим, например, что вы все еще работаете над содержимым этой страницы, и оно еще не готово для общего просмотра.

Но если страница будет проиндексирована, пользователи смогут найти ее, зайти на нее и сформировать негативное мнение о вашем сайте.

Как исправить Indexed, но заблокированный robots.txt?

Вы можете найти статус «Проиндексировано, но заблокировано robots.txt» в нижней части отчета об индексации страниц в вашей консоли поиска Google.

READ  Индия запустила новую ракету, но у нее возникли проблемы с размещением спутника | Цифровые тренды

Там вы можете увидеть таблицу «Улучшить внешний вид поиска».

Скриншот "Улучшить внешний вид поиска" стол.

Нажав на статус, вы увидите список затронутых URL-адресов и диаграмму, показывающую, как их количество менялось с течением времени.

Скриншот "Проиндексировано, но заблокировано robots.txt" диаграмма.

Список можно отфильтровать по URL-адресу или пути URL-адреса. Если у вас есть много URL-адресов, затронутых этой проблемой, и вы хотите просмотреть только некоторые части своего веб-сайта, используйте символ пирамиды с правой стороны.

Снимок экрана, показывающий, как отфильтровать список примеров URL-адресов.

Прежде чем приступить к устранению неполадок, подумайте, действительно ли URL-адреса в списке должны быть проиндексированы. Содержат ли они контент, который может быть полезен вашим посетителям?

Когда вы хотите, чтобы страница была проиндексирована

Если страница была запрещена в robots.txt по ошибке, вам необходимо изменить файл.

После удаления директивы Disallow, блокирующей сканирование вашего URL-адреса, робот Googlebot, скорее всего, просканирует его при следующем посещении вашего веб-сайта.

Подробные инструкции по надлежащему изменению файла см. руководство robots.txt.

Когда вы хотите деиндексировать страницу

Если страница содержит информацию, которую вы не хотите показывать пользователям, посещающим вас через поисковую систему, вы должны сообщить Google, что не хотите индексировать страницу.

Robots.txt не следует использовать для управления индексацией. Этот файл блокирует сканирование Googlebot. Вместо этого используйте тег noindex.

Google всегда учитывает «noindex», когда находит его на странице. Используя его, вы можете гарантировать, что Google не покажет вашу страницу в результатах поиска.

Подробную инструкцию по внедрению на свои страницы вы можете найти в нашем Руководство по тегу noindex.

Помните, что вам нужно разрешить Google сканировать вашу страницу, чтобы обнаружить этот HTML-тег. Это часть содержимого страницы.

Если вы добавите тег noindex, но оставите страницу заблокированной в файле robots.txt, Google не обнаружит этот тег. И страница останется проиндексированной, хоть и заблокированной robots.txt.

Когда Google просканирует страницу и увидит тег noindex, она будет удалена из индекса. Затем вы увидите, что его статус в отчете об индексации страниц изменится на «Исключено тегом noindex».

Имейте в виду, что если вы хотите скрыть какую-либо страницу от Google и ее пользователей, всегда будет самым безопасным выбором реализовать HTTP-аутентификацию на вашем сервере. Таким образом, только пользователи, которые вошли в систему, могут получить к нему доступ. Это необходимо, например, если вы хотите защитить конфиденциальные данные.

READ  Удивительное изображение Джеймса Уэбба похоже на червоточину | Цифровые тренды

Когда вам нужно долгосрочное решение

Приведенные выше решения помогут вам на время решить проблему «Проиндексирован, хотя и заблокирован robots.txt». Однако возможно, что в будущем он появится и на других страницах.

Такой статус свидетельствует о том, что ваш веб-сайт может нуждаться в тщательном улучшении внутренних ссылок или аудита обратных ссылок.

СЛЕДУЮЩИЕ ШАГИ

Вот что вы можете сделать сейчас:

  1. Свяжитесь с нами.
  2. Получите от нас индивидуальный план для решения ваших внутренних проблем со ссылками.
  3. Преодолейте беспорядок, который мешает вашему сайту расти.

Все еще не уверены, что напишите нам? Прочитайте, как оптимизация структуры сайта а также аудит ссылок может помочь вам улучшить ваш сайт.

Проиндексировано, но заблокировано robots.txt VS Заблокировано robots.txt

Статус «Проиндексировано, хотя и заблокирован robots.txt» относится к URL-адресам, которые не были просканированы, но были проиндексированы. В отчете об индексации страниц есть аналогичный статус «Заблокировано robots.txt», который применяется к страницам, которые не были просканированы и не проиндексированы одновременно.

Позвольте мне снова показать вам таблицу с самого начала, чтобы лучше обозначить эту разницу.

Таблица, показывающая разницу между индексированным, хотя и заблокированным robots.txt, и другим статусом.

Заблокированный файлом robots.txt, как правило, меньше проблем, в то время как индексированный, хотя и заблокированный файлом robots.txt, всегда должен рассматриваться с высоким приоритетом. Однако, если вы хотите поближе познакомиться и со вторым статусом, вы можете прочитать нашу статью о Заблокирован файлом robots.txt.

Ключевые выводы

  1. Директива Disallow в файле robots.txt запрещает Google сканировать вашу страницу, но не индексировать ее.
  2. Наличие страниц, которые одновременно проиндексированы и не просканированы, плохо влияет на SEO.
  3. Чтобы исправить индексирование, хотя оно и заблокировано robots.txt, вам нужно решить, должны ли затронутые страницы отображаться в поиске, а затем:
    • Измените файл robots.txt,
    • При необходимости используйте метатег noindex.
  4. Статус «Проиндексировано, но заблокировано robots.txt» может быть признаком серьезных проблем с вашим профилем внутренних ссылок и обратных ссылок. Свяжитесь с нами для оптимизации ваших ссылок.



Source link