В своем блоге мы постоянно рассказываем о том, как привлечь внимание поисковиков, быстро попадать в индекс и хорошо ранжироваться в поиске. Вы в это время решили закрыть сайт от индексации полностью или частично. Понимаем, для этого может много причин: редизайн, глобальная смена контента, другие технические работы. Кроме того, страницы админки, служебные и прочие “непользовательские” страницы в принципе не должны попадать в индекс. Как их скрыть и, что не менее важно, убедиться в том, что они точно скрыты - расскажем ниже.
В каких ситуациях мы скрываем страницы от индексации
Давайте еще раз рассмотрим частые причины и ситуации, в которых страницы сайта следует скрыть:
- Если после запуска сайта дизайн некоторые его страницы или контент на них пока не оптимизированы, мы рекомендуем закрывать их от поисковых ботов на время доработок. В каких ещё ситуациях нужен запрет на индексацию:
- В то время как на отдельном домене создаются мобильная версия сайта могут создаваться дубли страницы. Чтобы поисковики их не зафиксировали и сайт не потерял позиции выдаче, нужно закрыть сайт.
- По той же причине следует закрывать страницы, тогда, когда вы тестируете сайт на другом домене.
- Редизайн и обновление контента.
- Сайт во время разработки.
В таких случаях нужно запретить индексацию сайта на время проведения работ.
Однако, есть также страницы, которые должны быть скрыты от сканирования всегда. К таким относятся:
- Копии сайта
Или так называемое “зеркало” сайта. - Страницы печати
Страница печати, технически - это копия её основной версии. Открытая для сканирования страница может посчитаться поисковым роботом, как приоритетная и более релевантная. - Ненужные документы
На просторах ресурса, наряду с ключевым контентом, могут находиться различные файлы PDF, DOC, XLS, доступные для чтения и загрузки. Заголовки этих файлов, попавших в индекс, в таком случае могут попасть в результаты поиска и конкурировать с нужными html-страницами. - Пользовательские формы и элементы
Это могут быть формы оформления заявок и регистрации, корзина, личный кабинет клиента. - Технические данные ресурса
Страницы, предназначенные исключительно для служебного использования админом. - Персональные данные клиентов
Эта информация должна быть надежно защищена от просмотра. - Страницы сортировки и пагинации
Во избежания генерации дублей.
Почему так важно закрывать эти страницы от сканирования? В одних случаях их контент не несет в себе смысловой нагрузки ни для пользователей, ни для поисковиков. В других, наличие открытых страниц создает иллюзию дублированного контента, что чревато пессимизацией всего ресурса.
Также это приводит к нерациональному использованию краулингового бюджета. В то время как индексация — это сканирование и обработка содержания веб-страниц для хранения в базе данных поисковика, краулинговый бюджет — это количество страниц, которые поисковик может просканировать за один сеанс на сайте. Т.е., если для индексирования открыты ненужные страницы, это не только приводит к тому, что они могут попасть в выдачу и “портить всю картину”, но и к тому, что нужные страницы в индекс вовремя не попадают. Ведь краулинговый бюджет расходуется еще до того, как робот дойдет до них.
Как полностью или частично закрыть сайт от сканирования
Рассмотрим, как отключить индексацию веб-ресурса целиком или выборочно.
Robots.txt
Файл robots.txt, размещаемый в корневой директиве веб-ресурса, позволяет отключить сканирование для отдельных каталогов, страниц, папок, файлов, скриптов, utm-меток на сайте. Полностью или частично. Можно закрыть отдельные разделы или весь сайт, от определенного поисковика, или от всех.
Итак, как закрыть сайт от индексации в robots txt: прилагаем краткую инструкцию.
В тексте документа в формате txt прописываются команды для поисковых роботов. Для индексирования используется директива Disallow со значением " / ".
User-agent: название поисковой системы
Disallow: /
Если нужно закрыть сайт от всех поисковиков в значении для User-agent пропишите «*». Для обращения к конкретному роботу вместо, используйте его название. Например, User-agent: Yandex
Если во время доработок, скажем, одного раздела, его требуется скрыть от сканирования, после Disallow нужно прописать его частичный или полный URL.
Отметим: разделы или страницы, которые вы собираетесь закрыть, нужно не перечислять списком после директивы, а прописывать их по принципу - одна директива - один раздел.
Например:
User-agent:
Disallow: /catalogs
Disallow: /blog
Как проверить?
Проблема одна: бывает, что Google-боты не берут во внимание директиву Disallow и продолжает сканировать все страницы веб-ресурса. Но это легко проверить в панели для вебмастеров
Если в Google Search Console не указывается, что в Роботс закрыты определенные страницы, значит, у нас проблемы и стоит попробовать закрыть их другими методами, которые мы рассмотрим ниже.
“Чекнуть” Яндекс можно в соответствующей панели для вебмастеров в разделе «Индексирование».
Метатег Robots
Еще один способ закрыть страницу от индексации и даже отдельный ее контент - метатег Robots.
Что делаем:
- Если нужно запретить от индексации весь контент, добавляем в раздел <head> страницы строку кода:
<meta name="robots" content="noindex, nofollow"/>
или:
<meta name="robots" content="none"/> - Если нужно скрыть только часть контента (например, текст или его фрагмент), в тело тега <head> добавляем строку:
<noindex> фрагмент текста </noindex> - Чтоб запретить ботам переходить по ссылке, т.е. скрыть ее от сканирования,используйте nofollow:
<a href="url" rel="nofollow">текст ссылки</a>
Этот метод не гарантирует полное закрытие веб-ресурса от сканирования. После своих действий проверьте число просканированных страниц в консолях вебмастера.
Если ни таким методом ни в robots.txt запретить индексацию не получилось, используйте метод заголовка сервера, который мы опишем далее.
X-Robots-Tag
Этот метод основывается на указании заголовка HTTP на уровне сервера. С его помощью можно скрыть от ботов определенный контент.
На практике это реализуется несколькими методами, но мы рекомендуем самый удобный - редактирование кода в .htaccess.
Что делаем?
Открываем файл .htaccess и вбиваем в конце документа такие строчки:
<FilesMatch «\.html$»>
Header set X-Robots-Tag «noindex,nofollow»
</FilesMatch>
Таким образом мы, используя директиву FilesMatch закрываем все файлы в формате html. При желании, можно тем же способом скрыть от попадания в индекс файлы другого формата. Например, изображения в .jpeg. Как и другой медиаконтент, файлы и скрипты.
Для этого нужно подставить значение их формата после директивы FilesMatch в верхней строке заголовка, там где в нашем примере указан html.
Можно подставлять директивы, которые, в большинстве своем, совпадают с директивами Robots.
В конце проверьте результативность своих действий: работоспособен ли серверный заголовок. Для этого существуют сервисы типа Askapache. Введите нужную страницу и запустите проверку.
Подключённый заголовок выглядит так:
Заключение
Управление индексацией — важный пул работ. Для результативного продвижения в поиске следует не только оптимизировать полезные этом страницы, но и не забывать скрывать тот контент, продвижение которого не несет никакой пользы или может ему навредить.