Robots.txt: инструктируем поисковых ботов

Тимур Бондаренко

4 года назад

Коррекция кода сайта - важнейший этап оптимизации. ТЗ для программистов в процессе разработки ресурса редко включают пункты, касающиеся SEO. В итоге в коде готового сайта содержатся ошибки, мешающие нормальному индексированию и продвижению. Первое, что мы проверяем - корректность файла robots.txt, настройка которого критически важна для видимости ресурса в поиске. И почти у каждого проекта он некорректен, если вообще есть.

Здесь мы рассмотрим, какие данные содержаться в файле, как правильно их вносить и почему это так важно.

Почему важно правильно указать данные в файле

Robots.txt — это файловый объект, который помещается в корневой директиве (каталоге) веб-ресурса, необходимый для корректной индексации страниц. Код файла помогает поисковым ботам понять, к каким категориям и страницам они должны просканировать, а какие нет.

Проверка файла и его корректная настройка — первая и обязательная часть услуги поискового продвижения: без этого все дальнейшие усилия по оптимизации и закупке ссылок могут оказаться тщетными. Если файла robots.txt нет - страницы все равно будут сканироваться и попадать в индекс.

Но! Сканирующие боты поисковых систем будут считывать все подряд, все страницы сайта без разбору, зря потребляя краулинговый бюджет. Напоминаем, речь идет о лимитированном количестве страниц, которые бот может просканировать за один визит на ваш сайт.

Без текстовых указаний в файле robots.txt, роботы будут обходить, в том числе:

черновые страницы;
мусорные страницы;
дубли;
технические и скрытые страницы;
недостаточно качественные страницы;
сотни админ-страниц CMS.

Растрачивая на них краулинговый бюджет. А новые или обновленные страницы каталога или товарные карточки, к примеру, останутся вне индекса и не будут видимы в поиске.

Мало того, в выдачу могут попасть важные админ-страницы, что поставит сайт под угрозу взлома.

Ну и в конечном счете доверие поисковиков к сайту с дублями, мусорными страницами в индексе и большим числом отказов (ведь пользователи могут попадать на эти страницы и тут же уходить с них) будет минимальным. Пробиться в ТОП и получать бесплатный трафик не получится.

Как создать robots.txt

Итак, как прописать robots.txt и какие программы для этого нужны. Да особо никакие: поскольку файл текстовый, можно воспользоваться обычным Блокнотом или любым другим текстовым редактором. Прописываете директивы (это мы рассмотрим ниже), и сохраняете файл в формате txt. с названием robots.

Можно воспользоваться онлайн-программами

Создать robots.txt для сайта можно и онлайн. Однако, генерируя файл автоматически, будьте внимательны — проверьте его, прежде чем выгружать на сайт. Изучите информацию далее, чтобы знать, на что обращать внимание при редактировании сгенерированного файла.

Какие данные следует вносить в файл

Итак, чтобы понять, как правильно настроить robots txt стоит разобрать, как выглядит “безупречный” файл:

Но это лишь образец. Для каждого веб-ресурса необходимы свои параметры из-за различий в структуре и CMS. Разберем каждую директиву отдельно.

User-agent

Директива User-agent назначает поискового бота, которому положено следовать приведенным в файле инструкциям. Если инструкции прописаны для всех поисковиков, ставьте значок*. Если к определенному - указывайте его как:

User-agent: Yandex (“зеленый” свет всем Яндекс-ботам);
User-agent: YandexBot (доступ открыт только основному индексирующему Яндекс-боту);
User-agent: Googlebot (для всех гугл-ботов).

Таким образом, только указанный бот будет действовать согласно инструкциям, прописанным далее. Для каждого бота прописывается свой список инструкций: прописали для одного - пустая строчка - прописали для следующего.

У Яндекса и Google есть собственные списки юзер-агентов для разных ботов, с которыми можно ознакомиться в сети.

Disallow

Команда Disallow в robots.txt - запрет индексации отдельных папок. Варианты действий:

Весь сайт открыт - значение директивы остается пустым;
Весь сайт закрыт - после Disallow ставим “/”.
Чтобы закрыть только определенные объекты, после Disallow следует указать код папки, файла или расширения.

Например: вводим значение utm, закрывая от индексирования все станицы с метками UTM, вводим bitrix, закрывая доступ к соответствующей папке, вводим pdf, запрещая добавлять индекс файлы с таким расширением.

Внимание: прописывая директивы User-agent, Disallow и следующие за ними, не допускайте пустых строк между ними.

Allow

Наверняка вы уже догадались: Allow, в противовес предыдущей директиве, позволяет открыть отдельные объекты для индекса. Так, настройка robots.txt часто предполагает ограничение для индексирования папок, но при этом, некоторые объекты в этих папках должны оставаться открытыми.

Например, при помощи запрещающей директивы мы закрываем раздел /blog. Все страницы, начинающиеся с этого кода, не будут индексироваться. Но если далее мы введем Allow: /blog/page, то все страницы с началом “/blog/page” будут попадать в индекс.

Sitemap

Для быстрого попадания веб-площадки в поиск важно внедрить грамотную структуру. На ее основе создается xml-карту, которая станет навигатором бота по сайту. Для этого в корне размещается файл sitemap.xml, где прописываются коды страниц, которые нужно проиндексировать. С указанием приоритетности и частоты обновления страниц.

Чтобы бот быстрее добрался до карты, нам также стоит внести соответствующие настройки файла robots txt при помощи одноименной директивы в файле:

Sitemap: https://site.ru/site_structure/my_sitemaps1.xml

Проверка корректности файла после внесения данных

После внесения корректных данных в файл и его размещения в корне, стоит оценить его корректность в консольных сервисах Яндекс и Google.

Как выглядит проверка robots.txt в отечественном поисковике: выберите пункт меню Анализ robots.txt в настройках индексирования в Вебмастере.

В Google нужно выбрать соответствующий инструмент проверки в меню Сканирование.

Так можно проверить файл на наличие технических, синтаксических и орфографических ошибок, и внести корректировки в случае необходимости.