Мы свяжемся с вами в ближайшее время!
В своем блоге мы постоянно рассказываем о том, как привлечь внимание поисковиков, быстро попадать в индекс и хорошо ранжироваться в поиске. Вы в это время решили закрыть сайт от индексации полностью или частично. Понимаем, для этого может много причин: редизайн, глобальная смена контента, другие технические работы. Кроме того, страницы админки, служебные и прочие “непользовательские” страницы в принципе не должны попадать в индекс. Как их скрыть и, что не менее важно, убедиться в том, что они точно скрыты - расскажем ниже.
Давайте еще раз рассмотрим частые причины и ситуации, в которых страницы сайта следует скрыть:
В таких случаях нужно запретить индексацию сайта на время проведения работ.
Однако, есть также страницы, которые должны быть скрыты от сканирования всегда. К таким относятся:
Почему так важно закрывать эти страницы от сканирования? В одних случаях их контент не несет в себе смысловой нагрузки ни для пользователей, ни для поисковиков. В других, наличие открытых страниц создает иллюзию дублированного контента, что чревато пессимизацией всего ресурса.
Также это приводит к нерациональному использованию краулингового бюджета. В то время как индексация — это сканирование и обработка содержания веб-страниц для хранения в базе данных поисковика, краулинговый бюджет — это количество страниц, которые поисковик может просканировать за один сеанс на сайте. Т.е., если для индексирования открыты ненужные страницы, это не только приводит к тому, что они могут попасть в выдачу и “портить всю картину”, но и к тому, что нужные страницы в индекс вовремя не попадают. Ведь краулинговый бюджет расходуется еще до того, как робот дойдет до них.
Рассмотрим, как отключить индексацию веб-ресурса целиком или выборочно.
Файл robots.txt, размещаемый в корневой директиве веб-ресурса, позволяет отключить сканирование для отдельных каталогов, страниц, папок, файлов, скриптов, utm-меток на сайте. Полностью или частично. Можно закрыть отдельные разделы или весь сайт, от определенного поисковика, или от всех.
Итак, как закрыть сайт от индексации в robots txt: прилагаем краткую инструкцию.
В тексте документа в формате txt прописываются команды для поисковых роботов. Для индексирования используется директива Disallow со значением " / ".
User-agent: название поисковой системы
Disallow: /
Если нужно закрыть сайт от всех поисковиков в значении для User-agent пропишите «*». Для обращения к конкретному роботу вместо, используйте его название. Например, User-agent: Yandex
Если во время доработок, скажем, одного раздела, его требуется скрыть от сканирования, после Disallow нужно прописать его частичный или полный URL.
Отметим: разделы или страницы, которые вы собираетесь закрыть, нужно не перечислять списком после директивы, а прописывать их по принципу - одна директива - один раздел.
Например:
User-agent:
Disallow: /catalogs
Disallow: /blog
Проблема одна: бывает, что Google-боты не берут во внимание директиву Disallow и продолжает сканировать все страницы веб-ресурса. Но это легко проверить в панели для вебмастеров
Если в Google Search Console не указывается, что в Роботс закрыты определенные страницы, значит, у нас проблемы и стоит попробовать закрыть их другими методами, которые мы рассмотрим ниже.
“Чекнуть” Яндекс можно в соответствующей панели для вебмастеров в разделе «Индексирование».
Еще один способ закрыть страницу от индексации и даже отдельный ее контент - метатег Robots.
Что делаем:
Этот метод не гарантирует полное закрытие веб-ресурса от сканирования. После своих действий проверьте число просканированных страниц в консолях вебмастера.
Если ни таким методом ни в robots.txt запретить индексацию не получилось, используйте метод заголовка сервера, который мы опишем далее.
Этот метод основывается на указании заголовка HTTP на уровне сервера. С его помощью можно скрыть от ботов определенный контент.
На практике это реализуется несколькими методами, но мы рекомендуем самый удобный - редактирование кода в .htaccess.
Что делаем?
Открываем файл .htaccess и вбиваем в конце документа такие строчки:
<FilesMatch «\.html$»>
Header set X-Robots-Tag «noindex,nofollow»
</FilesMatch>
Таким образом мы, используя директиву FilesMatch закрываем все файлы в формате html. При желании, можно тем же способом скрыть от попадания в индекс файлы другого формата. Например, изображения в .jpeg. Как и другой медиаконтент, файлы и скрипты.
Для этого нужно подставить значение их формата после директивы FilesMatch в верхней строке заголовка, там где в нашем примере указан html.
Можно подставлять директивы, которые, в большинстве своем, совпадают с директивами Robots.
В конце проверьте результативность своих действий: работоспособен ли серверный заголовок. Для этого существуют сервисы типа Askapache. Введите нужную страницу и запустите проверку.
Подключённый заголовок выглядит так:
Управление индексацией — важный пул работ. Для результативного продвижения в поиске следует не только оптимизировать полезные этом страницы, но и не забывать скрывать тот контент, продвижение которого не несет никакой пользы или может ему навредить.
Мы свяжемся с вами в ближайшее время!