Как скрыть сайт или отдельный его контент от индексации

SEO

Как скрыть сайт или отдельный его контент от индексации

Тимур Бондаренко

23 сентября 2021

Как скрыть сайт или отдельный его контент от индексации

В своем блоге мы постоянно рассказываем о том, как привлечь внимание поисковиков, быстро попадать в индекс и хорошо ранжироваться в поиске. Вы в это время решили закрыть сайт от индексации полностью или частично. Понимаем, для этого может много причин: редизайн, глобальная смена контента, другие технические работы. Кроме того, страницы админки, служебные и прочие “непользовательские” страницы в принципе не должны попадать в индекс. Как их скрыть и, что не менее важно, убедиться в том, что они точно скрыты - расскажем ниже.

В каких ситуациях мы скрываем страницы от индексации

Давайте еще раз рассмотрим частые причины и ситуации, в которых страницы сайта следует скрыть:

Если после запуска сайта дизайн некоторые его страницы или контент на них пока не оптимизированы, мы рекомендуем закрывать их от поисковых ботов на время доработок. В каких ещё ситуациях нужен запрет на индексацию:
В то время как на отдельном домене создаются мобильная версия сайта могут создаваться дубли страницы. Чтобы поисковики их не зафиксировали и сайт не потерял позиции выдаче, нужно закрыть сайт.
По той же причине следует закрывать страницы, тогда, когда вы тестируете сайт на другом домене.
Редизайн и обновление контента.
Сайт во время разработки.

В таких случаях нужно запретить индексацию сайта на время проведения работ.

Однако, есть также страницы, которые должны быть скрыты от сканирования всегда. К таким относятся:

Копии сайта
Или так называемое “зеркало” сайта.
Страницы печати
Страница печати, технически - это копия её основной версии. Открытая для сканирования страница может посчитаться поисковым роботом, как приоритетная и более релевантная.
Ненужные документы
На просторах ресурса, наряду с ключевым контентом, могут находиться различные файлы PDF, DOC, XLS, доступные для чтения и загрузки. Заголовки этих файлов, попавших в индекс, в таком случае могут попасть в результаты поиска и конкурировать с нужными html-страницами.
Пользовательские формы и элементы
Это могут быть формы оформления заявок и регистрации, корзина, личный кабинет клиента.
Технические данные ресурса
Страницы, предназначенные исключительно для служебного использования админом.
Персональные данные клиентов
Эта информация должна быть надежно защищена от просмотра.
Страницы сортировки и пагинации
Во избежания генерации дублей.

Почему так важно закрывать эти страницы от сканирования? В одних случаях их контент не несет в себе смысловой нагрузки ни для пользователей, ни для поисковиков. В других, наличие открытых страниц создает иллюзию дублированного контента, что чревато пессимизацией всего ресурса.

Также это приводит к нерациональному использованию краулингового бюджета. В то время как индексация — это сканирование и обработка содержания веб-страниц для хранения в базе данных поисковика, краулинговый бюджет — это количество страниц, которые поисковик может просканировать за один сеанс на сайте. Т.е., если для индексирования открыты ненужные страницы, это не только приводит к тому, что они могут попасть в выдачу и “портить всю картину”, но и к тому, что нужные страницы в индекс вовремя не попадают. Ведь краулинговый бюджет расходуется еще до того, как робот дойдет до них.

Как полностью или частично закрыть сайт от сканирования

Рассмотрим, как отключить индексацию веб-ресурса целиком или выборочно.

Robots.txt

robots Как скрыть сайт или отдельный его контент от индексации

Файл robots.txt, размещаемый в корневой директиве веб-ресурса, позволяет отключить сканирование для отдельных каталогов, страниц, папок, файлов, скриптов, utm-меток на сайте. Полностью или частично. Можно закрыть отдельные разделы или весь сайт, от определенного поисковика, или от всех.

Итак, как закрыть сайт от индексации в robots txt: прилагаем краткую инструкцию.
В тексте документа в формате txt прописываются команды для поисковых роботов. Для индексирования используется директива Disallow со значением " / ".

User-agent: название поисковой системы
Disallow: /

Если нужно закрыть сайт от всех поисковиков в значении для User-agent пропишите «*». Для обращения к конкретному роботу вместо, используйте его название. Например, User-agent: Yandex

Если во время доработок, скажем, одного раздела, его требуется скрыть от сканирования, после Disallow нужно прописать его частичный или полный URL.

Отметим: разделы или страницы, которые вы собираетесь закрыть, нужно не перечислять списком после директивы, а прописывать их по принципу - одна директива - один раздел.

Например:

User-agent:
Disallow: /catalogs
Disallow: /blog

Как проверить?

Проблема одна: бывает, что Google-боты не берут во внимание директиву Disallow и продолжает сканировать все страницы веб-ресурса. Но это легко проверить в панели для вебмастеров

ni1 Как скрыть сайт или отдельный его контент от индексации

Если в Google Search Console не указывается, что в Роботс закрыты определенные страницы, значит, у нас проблемы и стоит попробовать закрыть их другими методами, которые мы рассмотрим ниже.

“Чекнуть” Яндекс можно в соответствующей панели для вебмастеров в разделе «Индексирование».

ni2 Как скрыть сайт или отдельный его контент от индексации

Метатег Robots

Еще один способ закрыть страницу от индексации и даже отдельный ее контент - метатег Robots.

Что делаем:

Если нужно запретить от индексации весь контент, добавляем в раздел <head> страницы строку кода:
<meta name="robots" content="noindex, nofollow"/>
или:
<meta name="robots" content="none"/>
Если нужно скрыть только часть контента (например, текст или его фрагмент), в тело тега <head> добавляем строку:
<noindex> фрагмент текста </noindex>
Чтоб запретить ботам переходить по ссылке, т.е. скрыть ее от сканирования,используйте nofollow:
<a href="url" rel="nofollow">текст ссылки</a>

Этот метод не гарантирует полное закрытие веб-ресурса от сканирования. После своих действий проверьте число просканированных страниц в консолях вебмастера.
Если ни таким методом ни в robots.txt запретить индексацию не получилось, используйте метод заголовка сервера, который мы опишем далее.

X-Robots-Tag

Этот метод основывается на указании заголовка HTTP на уровне сервера. С его помощью можно скрыть от ботов определенный контент.

На практике это реализуется несколькими методами, но мы рекомендуем самый удобный - редактирование кода в .htaccess.

Что делаем?

Открываем файл .htaccess и вбиваем в конце документа такие строчки:

<FilesMatch «\.html$»>
Header set X-Robots-Tag «noindex,nofollow»
</FilesMatch>

Таким образом мы, используя директиву FilesMatch закрываем все файлы в формате html. При желании, можно тем же способом скрыть от попадания в индекс файлы другого формата. Например, изображения в .jpeg. Как и другой медиаконтент, файлы и скрипты.

Для этого нужно подставить значение их формата после директивы FilesMatch в верхней строке заголовка, там где в нашем примере указан html.
Можно подставлять директивы, которые, в большинстве своем, совпадают с директивами Robots.

ni3 Как скрыть сайт или отдельный его контент от индексации

В конце проверьте результативность своих действий: работоспособен ли серверный заголовок. Для этого существуют сервисы типа Askapache. Введите нужную страницу и запустите проверку.

ni4 Как скрыть сайт или отдельный его контент от индексации

Подключённый заголовок выглядит так:

ni5 Как скрыть сайт или отдельный его контент от индексации

Заключение

Управление индексацией — важный пул работ. Для результативного продвижения в поиске следует не только оптимизировать полезные этом страницы, но и не забывать скрывать тот контент, продвижение которого не несет никакой пользы или может ему навредить.

Оцените статью

Средняя оценка 1 / 5. Количество оценок: 1

Оценок пока нет. Поставьте оценку первым.

Добавить комментарий Отменить ответ

Читайте также

SEOКейсы

Важность системного и регулярного SEO-продвижения: история одного интернет-магазина

Владимир Гутовский

20 февраля 2024

SEO

Как ускорить индексацию сайта

Тимур Бондаренко

28 июля 2020

Ваша заявка получена.

Мы свяжемся с вами в ближайшее время!

Настройки конфиденциальности

Этот веб-сайт использует файлы cookie, чтобы улучшить вашу работу во время навигации по веб-сайту. Некоторые файлы cookie, которые классифицируются как необходимые, хранятся в вашем браузере, поскольку они необходимы для работы основных функций веб-сайта. Мы также используем сторонние файлы cookie, которые помогают нам анализировать и понимать, как вы используете наш веб-сайт. Эти файлы cookie будут храниться в вашем браузере только с вашего согласия. У вас также есть возможность отказаться от этих файлов cookie. Но отказ от некоторых из этих файлов cookie может повлиять на ваш просмотр сайта.

Необходимые

Всегда включено

Необходимые файлы cookie абсолютно необходимы для правильной работы веб-сайта. Эти файлы cookie анонимно обеспечивают основные функции и функции безопасности веб-сайта.

Cookie	Продолжительность	Описание
cookielawinfo-checkbox-advertisement	1 год	Устанавливаемый плагином GDPR Cookie Consent, этот файл cookie используется для записи согласия пользователя на файлы cookie в категории «Реклама».
cookielawinfo-checkbox-analytics	11 месяцев	Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Аналитика».
cookielawinfo-checkbox-functional	11 месяцев	Файл cookie устанавливается в соответствии с соглашением о файлах cookie GDPR для записи согласия пользователя на файлы cookie в категории «Функциональные».
cookielawinfo-checkbox-necessary	11 месяцев	Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файлы cookie используются для хранения согласия пользователя на файлы cookie в категории «Необходимые».
cookielawinfo-checkbox-others	11 месяцев	Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Другое».
cookielawinfo-checkbox-performance	11 месяцев	Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Производительность».
PHPSESSID	сессия	Этот файл cookie является родным для приложений PHP. Файл cookie используется для хранения и идентификации уникального идентификатора сеанса пользователя с целью управления сеансом пользователя на веб-сайте. Файл cookie является сеансовым и удаляется при закрытии всех окон браузера.
viewed_cookie_policy	11 месяцев	Файл cookie устанавливается подключаемым модулем GDPR Cookie Consent и используется для хранения информации о том, согласился ли пользователь на использование файлов cookie. Он не хранит никаких личных данных.

Функциональные

Функциональные файлы cookie помогают выполнять определенные функции, такие как совместное использование содержимого веб-сайта в социальных сетях, сбор отзывов и другие сторонние функции.

Cookie	Продолжительность	Описание
pll_language	1 год	Файл cookie pll _language используется Polylang для запоминания языка, выбранного пользователем при возвращении на веб-сайт, а также для получения информации о языке, если она недоступна другим способом.

Для производительности

Аналитика

Аналитические файлы cookie используются для понимания того, как посетители взаимодействуют с веб-сайтом. Эти файлы cookie помогают предоставить информацию о таких показателях, как количество посетителей, показатель отказов, источник трафика и т.д.

Cookie	Продолжительность	Описание
_ga	2 года	Файл cookie _ga, установленный Google Analytics, рассчитывает данные о посетителях, сеансах и кампаниях, а также отслеживает использование сайта для аналитического отчета сайта. Файл cookie хранит информацию анонимно и присваивает случайно сгенерированный номер для распознавания уникальных посетителей.
_gat_UA-22569961-6	1 минута	Вариант файла cookie _gat, устанавливаемый Google Analytics и Диспетчером тегов Google, позволяющий владельцам веб-сайтов отслеживать поведение посетителей и измерять производительность сайта. Элемент шаблона в имени содержит уникальный идентификационный номер учетной записи или веб-сайта, к которому он относится.
_gid	1 день	Установленный Google Analytics, _gid cookie хранит информацию о том, как посетители используют веб-сайт, а также создает аналитический отчет о производительности веб-сайта. Некоторые из собираемых данных включают количество посетителей, их источник и страницы, которые они посещают анонимно.
_ym_d	1 год	Этот домен cookie принадлежит Яндекс.Матрике. Этот файл cookie используется для хранения даты первого сеанса пользователя на сайте.
_ym_isad	20 часов	Этот домен cookie принадлежит Яндекс.Матрике. Этот файл cookie используется для сбора информации о пользователе, например о его характеристиках, поведении на странице и целевых действиях.
_ym_uid	1 год	Этот файл cookie принадлежит Яндекс.Метрике. Этот файл cookie используется для установки уникального идентификатора посетителя и сбора информации о том, как посетитель использует веб-сайт. Таким образом, это помогает отслеживать пользователя, а собранная информация используется для улучшения сайта.
yabs-sid	Сессия	Это файлы cookie, используемые скриптом Яндекс Метрики, принадлежащим компании Яндекс. Эти файлы cookie используются для измерения и анализа трафика веб-сайта, предоставляя информацию о том, как пользователи используют веб-сайт.
yandexuid	1 год	Этот файл cookie используется для идентификации пользователей. Этот файл cookie собирает информацию о том, как посетители используют веб-сайт. Эта информация используется для внутреннего анализа и оптимизации сайта.
ymex	1 год	Этот файл cookie установлен яндекс. Этот файл cookie используется для сбора информации о поведении пользователя на веб-сайте. Эта информация используется для анализа веб-сайта и для оптимизации веб-сайта.

Рекламные

Рекламные файлы cookie используются для предоставления посетителям релевантной рекламы и маркетинговых кампаний. Эти файлы cookie отслеживают посетителей на веб-сайтах и собирают информацию для предоставления персонализированной рекламы.

Cookie	Продолжительность	Описание
_fbp	3 месяца	Этот файл cookie устанавливается Facebook для отображения рекламы на Facebook или на цифровой платформе, поддерживаемой рекламой Facebook, после посещения веб-сайта.
fr	3 месяца	Facebook устанавливает этот файл cookie, чтобы показывать пользователям релевантную рекламу, отслеживая поведение пользователей в Интернете, на сайтах с пикселем Facebook или социальным плагином Facebook.
i	10 лет	Этот файл cookie устанавливается OpenX для записи анонимных данных пользователя, таких как IP-адрес, географическое положение, посещенные веб-сайты, объявления, на которые нажимает пользователь, и т. Д., Для релевантной рекламы.

Остальные

Другие файлы cookie без категорий - это те, которые анализируются и еще не были отнесены к категории.

Cookie	Продолжительность	Описание
_ym_visorc	30 минут	Описание отсутствует.
metrika_enabled	сессия	Описание отсутствует.
rngst_callback	30 минут	Описание отсутствует.
yuidss	1 год	Описание отсутствует.

Как скрыть сайт или отдельный его контент от индексации

В каких ситуациях мы скрываем страницы от индексации

Как полностью или частично закрыть сайт от сканирования

Robots.txt

Как проверить?

Метатег Robots

X-Robots-Tag

Заключение

Добавить комментарий Отменить ответ

Подписка

Категории блога

Поиск

Популярные статьи