Агентство интернет-маркетинга

Как скрыть сайт или отдельный его контент от индексации

В своем блоге мы постоянно рассказываем о том, как привлечь внимание поисковиков, быстро попадать в индекс и хорошо ранжироваться в поиске. Вы в это время решили закрыть сайт от индексации полностью или частично. Понимаем, для этого может много причин: редизайн, глобальная смена контента, другие технические работы. Кроме того, страницы админки, служебные и прочие “непользовательские” страницы в принципе не должны попадать в индекс. Как их скрыть и, что не менее важно, убедиться в том, что они точно скрыты - расскажем ниже.

В каких ситуациях мы скрываем страницы от индексации

Давайте еще раз рассмотрим частые причины и ситуации, в которых страницы сайта следует скрыть:

  1. Если после запуска сайта дизайн некоторые его страницы или контент на них пока не оптимизированы, мы рекомендуем закрывать их от поисковых ботов на время доработок. В каких ещё ситуациях нужен запрет на индексацию:
  2. В то время как на отдельном домене создаются мобильная версия сайта могут создаваться дубли страницы. Чтобы поисковики их не зафиксировали и сайт не потерял позиции выдаче, нужно закрыть сайт.
  3. По той же причине следует закрывать страницы, тогда, когда вы тестируете сайт на другом домене.
  4. Редизайн и обновление контента.
  5. Сайт во время разработки.

В таких случаях нужно запретить индексацию сайта на время проведения работ.

Однако, есть также страницы, которые должны быть скрыты от сканирования всегда. К таким относятся:

  1. Копии сайта
    Или так называемое “зеркало” сайта.
  2. Страницы печати
    Страница печати, технически - это копия её основной версии. Открытая для сканирования страница может посчитаться поисковым роботом, как приоритетная и более релевантная.
  3. Ненужные документы
    На просторах ресурса, наряду с ключевым контентом, могут находиться различные файлы PDF, DOC, XLS, доступные для чтения и загрузки. Заголовки этих файлов, попавших в индекс, в таком случае могут попасть в результаты поиска и конкурировать с нужными html-страницами.
  4. Пользовательские формы и элементы
    Это могут быть формы оформления заявок и регистрации, корзина, личный кабинет клиента.
  5. Технические данные ресурса
    Страницы, предназначенные исключительно для служебного использования админом.
  6. Персональные данные клиентов
    Эта информация должна быть надежно защищена от просмотра.
  7. Страницы сортировки и пагинации
    Во избежания генерации дублей.

Почему так важно закрывать эти страницы от сканирования? В одних случаях их контент не несет в себе смысловой нагрузки ни для пользователей, ни для поисковиков. В других, наличие открытых страниц создает иллюзию дублированного контента, что чревато пессимизацией всего ресурса.

Также это приводит к нерациональному использованию краулингового бюджета. В то время как индексация — это сканирование и обработка содержания веб-страниц для хранения в базе данных поисковика, краулинговый бюджет — это количество страниц, которые поисковик может просканировать за один сеанс на сайте. Т.е., если для индексирования открыты ненужные страницы, это не только приводит к тому, что они могут попасть в выдачу и “портить всю картину”, но и к тому, что нужные страницы в индекс вовремя не попадают. Ведь краулинговый бюджет расходуется еще до того, как робот дойдет до них.

Как полностью или частично закрыть сайт от сканирования

Рассмотрим, как отключить индексацию веб-ресурса целиком или выборочно.

Robots.txt

Файл robots.txt, размещаемый в корневой директиве веб-ресурса, позволяет отключить сканирование для отдельных каталогов, страниц, папок, файлов, скриптов, utm-меток на сайте. Полностью или частично. Можно закрыть отдельные разделы или весь сайт, от определенного поисковика, или от всех.

Итак, как закрыть сайт от индексации в robots txt: прилагаем краткую инструкцию.
В тексте документа в формате txt прописываются команды для поисковых роботов. Для индексирования используется директива Disallow со значением " / ".

User-agent: название поисковой системы
Disallow: /

Если нужно закрыть сайт от всех поисковиков в значении для User-agent пропишите «*». Для обращения к конкретному роботу вместо, используйте его название. Например, User-agent: Yandex

Если во время доработок, скажем, одного раздела, его требуется скрыть от сканирования, после Disallow нужно прописать его частичный или полный URL.

Отметим: разделы или страницы, которые вы собираетесь закрыть, нужно не перечислять списком после директивы, а прописывать их по принципу - одна директива - один раздел.

Например:

User-agent:
Disallow: /catalogs
Disallow: /blog

Как проверить?

Проблема одна: бывает, что Google-боты не берут во внимание директиву Disallow и продолжает сканировать все страницы веб-ресурса. Но это легко проверить в панели для вебмастеров

Если в Google Search Console не указывается, что в Роботс закрыты определенные страницы, значит, у нас проблемы и стоит попробовать закрыть их другими методами, которые мы рассмотрим ниже.

“Чекнуть” Яндекс можно в соответствующей панели для вебмастеров в разделе «Индексирование».

Метатег Robots

Еще один способ закрыть страницу от индексации и даже отдельный ее контент - метатег Robots.

Что делаем:

  1. Если нужно запретить от индексации весь контент, добавляем в раздел <head> страницы строку кода:
    <meta name="robots" content="noindex, nofollow"/>
    или:
    <meta name="robots" content="none"/>
  2. Если нужно скрыть только часть контента (например, текст или его фрагмент), в тело тега <head> добавляем строку:
    <noindex> фрагмент текста </noindex>
  3. Чтоб запретить ботам переходить по ссылке, т.е. скрыть ее от сканирования,используйте nofollow:
    <a href="url" rel="nofollow">текст ссылки</a>

Этот метод не гарантирует полное закрытие веб-ресурса от сканирования. После своих действий проверьте число просканированных страниц в консолях вебмастера.
Если ни таким методом ни в robots.txt запретить индексацию не получилось, используйте метод заголовка сервера, который мы опишем далее.

X-Robots-Tag

Этот метод основывается на указании заголовка HTTP на уровне сервера. С его помощью можно скрыть от ботов определенный контент.

На практике это реализуется несколькими методами, но мы рекомендуем самый удобный - редактирование кода в .htaccess.

Что делаем?

Открываем файл .htaccess и вбиваем в конце документа такие строчки:

<FilesMatch «\.html$»>
Header set X-Robots-Tag «noindex,nofollow»
</FilesMatch>

Таким образом мы, используя директиву FilesMatch закрываем все файлы в формате html. При желании, можно тем же способом скрыть от попадания в индекс файлы другого формата. Например, изображения в .jpeg. Как и другой медиаконтент, файлы и скрипты.

Для этого нужно подставить значение их формата после директивы FilesMatch в верхней строке заголовка, там где в нашем примере указан html.
Можно подставлять директивы, которые, в большинстве своем, совпадают с директивами Robots.

В конце проверьте результативность своих действий: работоспособен ли серверный заголовок. Для этого существуют сервисы типа Askapache. Введите нужную страницу и запустите проверку.

Подключённый заголовок выглядит так:

Заключение

Управление индексацией — важный пул работ. Для результативного продвижения в поиске следует не только оптимизировать полезные этом страницы, но и не забывать скрывать тот контент, продвижение которого не несет никакой пользы или может ему навредить.