Аудит дублированного контента на сайте: анализ сайта и индекс Google

27 февраля 2023, 14:33
356
0
Для увеличения трафика на сайт необходимо не только наращивать ссылочный профиль, но и провести проверку данных, которые находятся в поисковом индексе Google.

Это еще одна важная задача, которую следует периодически выполнять. На основе такого анализа можно обнаружить аномалии, которые иногда трудно выявить, анализируя страницы своего сайта.

Такой анализ лучше всего проводить, набрав в Google site:domen.ru – заменив слово domen.ru на название собственного сайта, разумеется. Стоит отметить, что здесь не вводятся префиксы, например, www, https и т.д.

Стоит отметить, что Google не представляет все данные, которые он собрал и проиндексировал – он показывает только фрагмент данных, которые лучше всего соответствуют запросу. Переходя на следующую страницу результатов поиска, можно увидеть другое количество результатов.

Это происходит потому, что Google решил, что для второй страницы результатов по данному запросу он будет ограничивать показываемые данные. Иногда это ограничение имеет и несколько иной характер – Google помещает некоторые похожие страницы во вспомогательный индекс (Google Supplemental Index). Сюда попадают страницы, которые сходные до степени смешения (или даже являются копией 1:1) с другими страницами сайта. Если страница попадает во вспомогательный индекс, найти ее, как правило, невозможно – таким образом, теряется определенный объем трафика.

Попадут ли какие-либо ресурсы в субиндекс или нет, решает Google – владелец сайта не имеет на это никакого влияния. Только хорошая оптимизация (включая улучшение контента) может вернуть такую страницу в основной индекс. Вторичный индекс можно увидеть, перейдя на последнюю страницу результатов поиска по запросу site:domen.ru.

В появлении сайта во вторичном индексе нет ничего плохого. Часто туда попадают отдельные страницы низкого качества, нередко PDF-файлы, являющиеся копиями сайта. Если в этой коллекции есть страницы с контентом, следует действовать и сосредоточиться на том, чтобы вытащить их в основной индекс или заблокировать эти страницы от индексации с помощью мета-тега robots noindex.

Google не показывает полную информацию о страницах сайта, которые находятся в индексе. То же самое касается и тегов заголовков – иногда видимое не совсем совпадает с реальностью. Стоит помнить об этом, продолжая свой анализ, поскольку следующим шагом будет просмотр страниц, которые Google сохранил в своем индексе. Лучший способ сделать это – не открывать каждую страницу и смотреть, что на ней находится, а проанализировать теги заголовков, которые видны на странице результатов поиска.

Это могут быть:

  • индексированные файлы, например, PDF, doc, txt и т.д.,
  • проиндексированные поддомены,
  • страницы администрирования скриптов,
  • тестовые версии статей или записей,
  • вложенные страницы с тегами.

Любые такие страницы должны вызвать бдительность – они могут содержать дублированный контент. Только такие страницы следует проверять более тщательно, что значительно сокращает время самого аудита. Возможно, окажется, что некоторые страницы не будут дублировать контент, но такой анализ почти всегда заканчивается обнаружением потенциальной проблемы, устранение которой существенно изменит соотношение уникального и дублированного контента.

Анализ сайта может быть выполнен вручную или с помощью инструментов. Стоит сделать запрос различных комбинаций адресов сайта (например, с префиксом www, без www и т.д.). Данные, собранные в ходе таких запросов, могут быть разными. Объединив данные нескольких запросов, можно обнаружить больше страниц, которые находятся в индексе Google.

Комментарии

Для возможности добавления комментария, пожалуйста, авторизуйтесь.
Полезные сервисы