Коррекция кода сайта - важнейший этап оптимизации. ТЗ для программистов в процессе разработки ресурса редко включают пункты, касающиеся SEO. В итоге в коде готового сайта содержатся ошибки, мешающие нормальному индексированию и продвижению. Первое, что мы проверяем - корректность файла robots.txt, настройка которого критически важна для видимости ресурса в поиске. И почти у каждого проекта он некорректен, если вообще есть.
Здесь мы рассмотрим, какие данные содержаться в файле, как правильно их вносить и почему это так важно.
Почему важно правильно указать данные в файле
Robots.txt — это файловый объект, который помещается в корневой директиве (каталоге) веб-ресурса, необходимый для корректной индексации страниц. Код файла помогает поисковым ботам понять, к каким категориям и страницам они должны просканировать, а какие нет.
Проверка файла и его корректная настройка — первая и обязательная часть услуги поискового продвижения: без этого все дальнейшие усилия по оптимизации и закупке ссылок могут оказаться тщетными. Если файла robots.txt нет - страницы все равно будут сканироваться и попадать в индекс.
Но! Сканирующие боты поисковых систем будут считывать все подряд, все страницы сайта без разбору, зря потребляя краулинговый бюджет. Напоминаем, речь идет о лимитированном количестве страниц, которые бот может просканировать за один визит на ваш сайт.
Без текстовых указаний в файле robots.txt, роботы будут обходить, в том числе:
- черновые страницы;
- мусорные страницы;
- дубли;
- технические и скрытые страницы;
- недостаточно качественные страницы;
- сотни админ-страниц CMS.
Растрачивая на них краулинговый бюджет. А новые или обновленные страницы каталога или товарные карточки, к примеру, останутся вне индекса и не будут видимы в поиске.
Мало того, в выдачу могут попасть важные админ-страницы, что поставит сайт под угрозу взлома.
Ну и в конечном счете доверие поисковиков к сайту с дублями, мусорными страницами в индексе и большим числом отказов (ведь пользователи могут попадать на эти страницы и тут же уходить с них) будет минимальным. Пробиться в ТОП и получать бесплатный трафик не получится.
Как создать robots.txt
Итак, как прописать robots.txt и какие программы для этого нужны. Да особо никакие: поскольку файл текстовый, можно воспользоваться обычным Блокнотом или любым другим текстовым редактором. Прописываете директивы (это мы рассмотрим ниже), и сохраняете файл в формате txt. с названием robots.
Можно воспользоваться онлайн-программами
Создать robots.txt для сайта можно и онлайн. Однако, генерируя файл автоматически, будьте внимательны — проверьте его, прежде чем выгружать на сайт. Изучите информацию далее, чтобы знать, на что обращать внимание при редактировании сгенерированного файла.
Какие данные следует вносить в файл
Итак, чтобы понять, как правильно настроить robots txt стоит разобрать, как выглядит “безупречный” файл:
Но это лишь образец. Для каждого веб-ресурса необходимы свои параметры из-за различий в структуре и CMS. Разберем каждую директиву отдельно.
User-agent
Директива User-agent назначает поискового бота, которому положено следовать приведенным в файле инструкциям. Если инструкции прописаны для всех поисковиков, ставьте значок*. Если к определенному - указывайте его как:
- User-agent: Yandex (“зеленый” свет всем Яндекс-ботам);
- User-agent: YandexBot (доступ открыт только основному индексирующему Яндекс-боту);
- User-agent: Googlebot (для всех гугл-ботов).
Таким образом, только указанный бот будет действовать согласно инструкциям, прописанным далее. Для каждого бота прописывается свой список инструкций: прописали для одного - пустая строчка - прописали для следующего.
У Яндекса и Google есть собственные списки юзер-агентов для разных ботов, с которыми можно ознакомиться в сети.
Disallow
Команда Disallow в robots.txt - запрет индексации отдельных папок. Варианты действий:
- Весь сайт открыт - значение директивы остается пустым;
- Весь сайт закрыт - после Disallow ставим “/”.
- Чтобы закрыть только определенные объекты, после Disallow следует указать код папки, файла или расширения.
Например: вводим значение utm, закрывая от индексирования все станицы с метками UTM, вводим bitrix, закрывая доступ к соответствующей папке, вводим pdf, запрещая добавлять индекс файлы с таким расширением.
Внимание: прописывая директивы User-agent, Disallow и следующие за ними, не допускайте пустых строк между ними.
Allow
Наверняка вы уже догадались: Allow, в противовес предыдущей директиве, позволяет открыть отдельные объекты для индекса. Так, настройка robots.txt часто предполагает ограничение для индексирования папок, но при этом, некоторые объекты в этих папках должны оставаться открытыми.
Например, при помощи запрещающей директивы мы закрываем раздел /blog. Все страницы, начинающиеся с этого кода, не будут индексироваться. Но если далее мы введем Allow: /blog/page, то все страницы с началом “/blog/page” будут попадать в индекс.
Sitemap
Для быстрого попадания веб-площадки в поиск важно внедрить грамотную структуру. На ее основе создается xml-карту, которая станет навигатором бота по сайту. Для этого в корне размещается файл sitemap.xml, где прописываются коды страниц, которые нужно проиндексировать. С указанием приоритетности и частоты обновления страниц.
Чтобы бот быстрее добрался до карты, нам также стоит внести соответствующие настройки файла robots txt при помощи одноименной директивы в файле:
Sitemap: https://site.ru/site_structure/my_sitemaps1.xml
Проверка корректности файла после внесения данных
После внесения корректных данных в файл и его размещения в корне, стоит оценить его корректность в консольных сервисах Яндекс и Google.
Как выглядит проверка robots.txt в отечественном поисковике: выберите пункт меню Анализ robots.txt в настройках индексирования в Вебмастере.
В Google нужно выбрать соответствующий инструмент проверки в меню Сканирование.
Так можно проверить файл на наличие технических, синтаксических и орфографических ошибок, и внести корректировки в случае необходимости.