Мы свяжемся с вами в ближайшее время!
Коррекция кода сайта - важнейший этап оптимизации. ТЗ для программистов в процессе разработки ресурса редко включают пункты, касающиеся SEO. В итоге в коде готового сайта содержатся ошибки, мешающие нормальному индексированию и продвижению. Первое, что мы проверяем - корректность файла robots.txt, настройка которого критически важна для видимости ресурса в поиске. И почти у каждого проекта он некорректен, если вообще есть.
Здесь мы рассмотрим, какие данные содержаться в файле, как правильно их вносить и почему это так важно.
Robots.txt — это файловый объект, который помещается в корневой директиве (каталоге) веб-ресурса, необходимый для корректной индексации страниц. Код файла помогает поисковым ботам понять, к каким категориям и страницам они должны просканировать, а какие нет.
Проверка файла и его корректная настройка — первая и обязательная часть услуги поискового продвижения: без этого все дальнейшие усилия по оптимизации и закупке ссылок могут оказаться тщетными. Если файла robots.txt нет - страницы все равно будут сканироваться и попадать в индекс.
Но! Сканирующие боты поисковых систем будут считывать все подряд, все страницы сайта без разбору, зря потребляя краулинговый бюджет. Напоминаем, речь идет о лимитированном количестве страниц, которые бот может просканировать за один визит на ваш сайт.
Без текстовых указаний в файле robots.txt, роботы будут обходить, в том числе:
Растрачивая на них краулинговый бюджет. А новые или обновленные страницы каталога или товарные карточки, к примеру, останутся вне индекса и не будут видимы в поиске.
Мало того, в выдачу могут попасть важные админ-страницы, что поставит сайт под угрозу взлома.
Ну и в конечном счете доверие поисковиков к сайту с дублями, мусорными страницами в индексе и большим числом отказов (ведь пользователи могут попадать на эти страницы и тут же уходить с них) будет минимальным. Пробиться в ТОП и получать бесплатный трафик не получится.
Итак, как прописать robots.txt и какие программы для этого нужны. Да особо никакие: поскольку файл текстовый, можно воспользоваться обычным Блокнотом или любым другим текстовым редактором. Прописываете директивы (это мы рассмотрим ниже), и сохраняете файл в формате txt. с названием robots.
Создать robots.txt для сайта можно и онлайн. Однако, генерируя файл автоматически, будьте внимательны — проверьте его, прежде чем выгружать на сайт. Изучите информацию далее, чтобы знать, на что обращать внимание при редактировании сгенерированного файла.
Итак, чтобы понять, как правильно настроить robots txt стоит разобрать, как выглядит “безупречный” файл:
Но это лишь образец. Для каждого веб-ресурса необходимы свои параметры из-за различий в структуре и CMS. Разберем каждую директиву отдельно.
Директива User-agent назначает поискового бота, которому положено следовать приведенным в файле инструкциям. Если инструкции прописаны для всех поисковиков, ставьте значок*. Если к определенному - указывайте его как:
Таким образом, только указанный бот будет действовать согласно инструкциям, прописанным далее. Для каждого бота прописывается свой список инструкций: прописали для одного - пустая строчка - прописали для следующего.
У Яндекса и Google есть собственные списки юзер-агентов для разных ботов, с которыми можно ознакомиться в сети.
Команда Disallow в robots.txt - запрет индексации отдельных папок. Варианты действий:
Например: вводим значение utm, закрывая от индексирования все станицы с метками UTM, вводим bitrix, закрывая доступ к соответствующей папке, вводим pdf, запрещая добавлять индекс файлы с таким расширением.
Внимание: прописывая директивы User-agent, Disallow и следующие за ними, не допускайте пустых строк между ними.
Наверняка вы уже догадались: Allow, в противовес предыдущей директиве, позволяет открыть отдельные объекты для индекса. Так, настройка robots.txt часто предполагает ограничение для индексирования папок, но при этом, некоторые объекты в этих папках должны оставаться открытыми.
Например, при помощи запрещающей директивы мы закрываем раздел /blog. Все страницы, начинающиеся с этого кода, не будут индексироваться. Но если далее мы введем Allow: /blog/page, то все страницы с началом “/blog/page” будут попадать в индекс.
Для быстрого попадания веб-площадки в поиск важно внедрить грамотную структуру. На ее основе создается xml-карту, которая станет навигатором бота по сайту. Для этого в корне размещается файл sitemap.xml, где прописываются коды страниц, которые нужно проиндексировать. С указанием приоритетности и частоты обновления страниц.
Чтобы бот быстрее добрался до карты, нам также стоит внести соответствующие настройки файла robots txt при помощи одноименной директивы в файле:
Sitemap: https://site.ru/site_structure/my_sitemaps1.xml
После внесения корректных данных в файл и его размещения в корне, стоит оценить его корректность в консольных сервисах Яндекс и Google.
Как выглядит проверка robots.txt в отечественном поисковике: выберите пункт меню Анализ robots.txt в настройках индексирования в Вебмастере.
В Google нужно выбрать соответствующий инструмент проверки в меню Сканирование.
Так можно проверить файл на наличие технических, синтаксических и орфографических ошибок, и внести корректировки в случае необходимости.
Мы свяжемся с вами в ближайшее время!