Robots.txt: инструктируем поисковых ботов

SEO

Robots.txt: инструктируем поисковых ботов

Тимур Бондаренко

14 июня 2021

Robots.txt: инструктируем поисковых ботов

Коррекция кода сайта - важнейший этап оптимизации. ТЗ для программистов в процессе разработки ресурса редко включают пункты, касающиеся SEO. В итоге в коде готового сайта содержатся ошибки, мешающие нормальному индексированию и продвижению. Первое, что мы проверяем - корректность файла robots.txt, настройка которого критически важна для видимости ресурса в поиске. И почти у каждого проекта он некорректен, если вообще есть.

Здесь мы рассмотрим, какие данные содержаться в файле, как правильно их вносить и почему это так важно.

Почему важно правильно указать данные в файле

Robots.txt — это файловый объект, который помещается в корневой директиве (каталоге) веб-ресурса, необходимый для корректной индексации страниц. Код файла помогает поисковым ботам понять, к каким категориям и страницам они должны просканировать, а какие нет.

Проверка файла и его корректная настройка — первая и обязательная часть услуги поискового продвижения: без этого все дальнейшие усилия по оптимизации и закупке ссылок могут оказаться тщетными. Если файла robots.txt нет - страницы все равно будут сканироваться и попадать в индекс.

Но! Сканирующие боты поисковых систем будут считывать все подряд, все страницы сайта без разбору, зря потребляя краулинговый бюджет. Напоминаем, речь идет о лимитированном количестве страниц, которые бот может просканировать за один визит на ваш сайт.

Без текстовых указаний в файле robots.txt, роботы будут обходить, в том числе:

черновые страницы;
мусорные страницы;
дубли;
технические и скрытые страницы;
недостаточно качественные страницы;
сотни админ-страниц CMS.

Растрачивая на них краулинговый бюджет. А новые или обновленные страницы каталога или товарные карточки, к примеру, останутся вне индекса и не будут видимы в поиске.

Мало того, в выдачу могут попасть важные админ-страницы, что поставит сайт под угрозу взлома.

Ну и в конечном счете доверие поисковиков к сайту с дублями, мусорными страницами в индексе и большим числом отказов (ведь пользователи могут попадать на эти страницы и тут же уходить с них) будет минимальным. Пробиться в ТОП и получать бесплатный трафик не получится.

Как создать robots.txt

Итак, как прописать robots.txt и какие программы для этого нужны. Да особо никакие: поскольку файл текстовый, можно воспользоваться обычным Блокнотом или любым другим текстовым редактором. Прописываете директивы (это мы рассмотрим ниже), и сохраняете файл в формате txt. с названием robots.

robot Robots.txt: инструктируем поисковых ботов

Можно воспользоваться онлайн-программами

Создать robots.txt для сайта можно и онлайн. Однако, генерируя файл автоматически, будьте внимательны — проверьте его, прежде чем выгружать на сайт. Изучите информацию далее, чтобы знать, на что обращать внимание при редактировании сгенерированного файла.

Какие данные следует вносить в файл

Итак, чтобы понять, как правильно настроить robots txt стоит разобрать, как выглядит “безупречный” файл:

robots_txt Robots.txt: инструктируем поисковых ботов

Но это лишь образец. Для каждого веб-ресурса необходимы свои параметры из-за различий в структуре и CMS. Разберем каждую директиву отдельно.

User-agent

Директива User-agent назначает поискового бота, которому положено следовать приведенным в файле инструкциям. Если инструкции прописаны для всех поисковиков, ставьте значок*. Если к определенному - указывайте его как:

User-agent: Yandex (“зеленый” свет всем Яндекс-ботам);
User-agent: YandexBot (доступ открыт только основному индексирующему Яндекс-боту);
User-agent: Googlebot (для всех гугл-ботов).

Таким образом, только указанный бот будет действовать согласно инструкциям, прописанным далее. Для каждого бота прописывается свой список инструкций: прописали для одного - пустая строчка - прописали для следующего.

У Яндекса и Google есть собственные списки юзер-агентов для разных ботов, с которыми можно ознакомиться в сети.

Disallow

Команда Disallow в robots.txt - запрет индексации отдельных папок. Варианты действий:

Весь сайт открыт - значение директивы остается пустым;
Весь сайт закрыт - после Disallow ставим “/”.
Чтобы закрыть только определенные объекты, после Disallow следует указать код папки, файла или расширения.

Например: вводим значение utm, закрывая от индексирования все станицы с метками UTM, вводим bitrix, закрывая доступ к соответствующей папке, вводим pdf, запрещая добавлять индекс файлы с таким расширением.

Внимание: прописывая директивы User-agent, Disallow и следующие за ними, не допускайте пустых строк между ними.

Allow

Наверняка вы уже догадались: Allow, в противовес предыдущей директиве, позволяет открыть отдельные объекты для индекса. Так, настройка robots.txt часто предполагает ограничение для индексирования папок, но при этом, некоторые объекты в этих папках должны оставаться открытыми.

Например, при помощи запрещающей директивы мы закрываем раздел /blog. Все страницы, начинающиеся с этого кода, не будут индексироваться. Но если далее мы введем Allow: /blog/page, то все страницы с началом “/blog/page” будут попадать в индекс.

Sitemap

Для быстрого попадания веб-площадки в поиск важно внедрить грамотную структуру. На ее основе создается xml-карту, которая станет навигатором бота по сайту. Для этого в корне размещается файл sitemap.xml, где прописываются коды страниц, которые нужно проиндексировать. С указанием приоритетности и частоты обновления страниц.

Чтобы бот быстрее добрался до карты, нам также стоит внести соответствующие настройки файла robots txt при помощи одноименной директивы в файле:

Sitemap: https://site.ru/site_structure/my_sitemaps1.xml

Проверка корректности файла после внесения данных

После внесения корректных данных в файл и его размещения в корне, стоит оценить его корректность в консольных сервисах Яндекс и Google.

Как выглядит проверка robots.txt в отечественном поисковике: выберите пункт меню Анализ robots.txt в настройках индексирования в Вебмастере.

В Google нужно выбрать соответствующий инструмент проверки в меню Сканирование.

Так можно проверить файл на наличие технических, синтаксических и орфографических ошибок, и внести корректировки в случае необходимости.

Оцените статью

Средняя оценка 0 / 5. Количество оценок: 0

Оценок пока нет. Поставьте оценку первым.

Читайте также

SEO

Причины проседания позиции сайта в поисковой выдаче

Тимур Бондаренко

15 ноября 2021

SEO

Внешняя оптимизация сайта: методы и этапы

Александр Ткешелашвили

17 февраля 2021

Ваша заявка получена.

Мы свяжемся с вами в ближайшее время!

Настройки конфиденциальности

Этот веб-сайт использует файлы cookie, чтобы улучшить вашу работу во время навигации по веб-сайту. Некоторые файлы cookie, которые классифицируются как необходимые, хранятся в вашем браузере, поскольку они необходимы для работы основных функций веб-сайта. Мы также используем сторонние файлы cookie, которые помогают нам анализировать и понимать, как вы используете наш веб-сайт. Эти файлы cookie будут храниться в вашем браузере только с вашего согласия. У вас также есть возможность отказаться от этих файлов cookie. Но отказ от некоторых из этих файлов cookie может повлиять на ваш просмотр сайта.

Необходимые

Всегда включено

Необходимые файлы cookie абсолютно необходимы для правильной работы веб-сайта. Эти файлы cookie анонимно обеспечивают основные функции и функции безопасности веб-сайта.

Cookie	Продолжительность	Описание
cookielawinfo-checkbox-advertisement	1 год	Устанавливаемый плагином GDPR Cookie Consent, этот файл cookie используется для записи согласия пользователя на файлы cookie в категории «Реклама».
cookielawinfo-checkbox-analytics	11 месяцев	Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Аналитика».
cookielawinfo-checkbox-functional	11 месяцев	Файл cookie устанавливается в соответствии с соглашением о файлах cookie GDPR для записи согласия пользователя на файлы cookie в категории «Функциональные».
cookielawinfo-checkbox-necessary	11 месяцев	Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файлы cookie используются для хранения согласия пользователя на файлы cookie в категории «Необходимые».
cookielawinfo-checkbox-others	11 месяцев	Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Другое».
cookielawinfo-checkbox-performance	11 месяцев	Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Производительность».
PHPSESSID	сессия	Этот файл cookie является родным для приложений PHP. Файл cookie используется для хранения и идентификации уникального идентификатора сеанса пользователя с целью управления сеансом пользователя на веб-сайте. Файл cookie является сеансовым и удаляется при закрытии всех окон браузера.
viewed_cookie_policy	11 месяцев	Файл cookie устанавливается подключаемым модулем GDPR Cookie Consent и используется для хранения информации о том, согласился ли пользователь на использование файлов cookie. Он не хранит никаких личных данных.

Функциональные

Функциональные файлы cookie помогают выполнять определенные функции, такие как совместное использование содержимого веб-сайта в социальных сетях, сбор отзывов и другие сторонние функции.

Cookie	Продолжительность	Описание
pll_language	1 год	Файл cookie pll _language используется Polylang для запоминания языка, выбранного пользователем при возвращении на веб-сайт, а также для получения информации о языке, если она недоступна другим способом.

Для производительности

Аналитика

Аналитические файлы cookie используются для понимания того, как посетители взаимодействуют с веб-сайтом. Эти файлы cookie помогают предоставить информацию о таких показателях, как количество посетителей, показатель отказов, источник трафика и т.д.

Cookie	Продолжительность	Описание
_ga	2 года	Файл cookie _ga, установленный Google Analytics, рассчитывает данные о посетителях, сеансах и кампаниях, а также отслеживает использование сайта для аналитического отчета сайта. Файл cookie хранит информацию анонимно и присваивает случайно сгенерированный номер для распознавания уникальных посетителей.
_gat_UA-22569961-6	1 минута	Вариант файла cookie _gat, устанавливаемый Google Analytics и Диспетчером тегов Google, позволяющий владельцам веб-сайтов отслеживать поведение посетителей и измерять производительность сайта. Элемент шаблона в имени содержит уникальный идентификационный номер учетной записи или веб-сайта, к которому он относится.
_gid	1 день	Установленный Google Analytics, _gid cookie хранит информацию о том, как посетители используют веб-сайт, а также создает аналитический отчет о производительности веб-сайта. Некоторые из собираемых данных включают количество посетителей, их источник и страницы, которые они посещают анонимно.
_ym_d	1 год	Этот домен cookie принадлежит Яндекс.Матрике. Этот файл cookie используется для хранения даты первого сеанса пользователя на сайте.
_ym_isad	20 часов	Этот домен cookie принадлежит Яндекс.Матрике. Этот файл cookie используется для сбора информации о пользователе, например о его характеристиках, поведении на странице и целевых действиях.
_ym_uid	1 год	Этот файл cookie принадлежит Яндекс.Метрике. Этот файл cookie используется для установки уникального идентификатора посетителя и сбора информации о том, как посетитель использует веб-сайт. Таким образом, это помогает отслеживать пользователя, а собранная информация используется для улучшения сайта.
yabs-sid	Сессия	Это файлы cookie, используемые скриптом Яндекс Метрики, принадлежащим компании Яндекс. Эти файлы cookie используются для измерения и анализа трафика веб-сайта, предоставляя информацию о том, как пользователи используют веб-сайт.
yandexuid	1 год	Этот файл cookie используется для идентификации пользователей. Этот файл cookie собирает информацию о том, как посетители используют веб-сайт. Эта информация используется для внутреннего анализа и оптимизации сайта.
ymex	1 год	Этот файл cookie установлен яндекс. Этот файл cookie используется для сбора информации о поведении пользователя на веб-сайте. Эта информация используется для анализа веб-сайта и для оптимизации веб-сайта.

Рекламные

Рекламные файлы cookie используются для предоставления посетителям релевантной рекламы и маркетинговых кампаний. Эти файлы cookie отслеживают посетителей на веб-сайтах и собирают информацию для предоставления персонализированной рекламы.

Cookie	Продолжительность	Описание
_fbp	3 месяца	Этот файл cookie устанавливается Facebook для отображения рекламы на Facebook или на цифровой платформе, поддерживаемой рекламой Facebook, после посещения веб-сайта.
fr	3 месяца	Facebook устанавливает этот файл cookie, чтобы показывать пользователям релевантную рекламу, отслеживая поведение пользователей в Интернете, на сайтах с пикселем Facebook или социальным плагином Facebook.
i	10 лет	Этот файл cookie устанавливается OpenX для записи анонимных данных пользователя, таких как IP-адрес, географическое положение, посещенные веб-сайты, объявления, на которые нажимает пользователь, и т. Д., Для релевантной рекламы.

Остальные

Другие файлы cookie без категорий - это те, которые анализируются и еще не были отнесены к категории.

Cookie	Продолжительность	Описание
_ym_visorc	30 минут	Описание отсутствует.
metrika_enabled	сессия	Описание отсутствует.
rngst_callback	30 минут	Описание отсутствует.
yuidss	1 год	Описание отсутствует.

Robots.txt: инструктируем поисковых ботов

Почему важно правильно указать данные в файле

Как создать robots.txt

Можно воспользоваться онлайн-программами

Какие данные следует вносить в файл

User-agent

Disallow

Allow

Sitemap

Проверка корректности файла после внесения данных

Подписка

Категории блога

Поиск

Популярные статьи