Настройка индексации robots.txt

Объект Robots.txt располагается файловой системой в корневой папке каталога, наполнен инструкциями текстового формата с использованием кодировки UTF-8. Внутри находится набор директив для бота поисковой системы, который следует сканировать. Наличие такой инструкции обязательно для каждого ресурса, независимо от того, открыт ли он для индексации.

Как создать файл robots.txt

Google во время сканирования текстового списка инструкций проходит только первые 500 KB. В случае с системой Яндекс сканирование не начинается, если размер превышает допустимое значение. Сканирование и индексирование роботом Яндекса может считаться успешным в течении двух недель, а для Гугл содержание файла носит рекомендательный характер, то есть необязательно к реализации.

Поисковые системы при посещении любого ресурса изначально отслеживают файл robots.txt, проверяется соблюдение следующих условий:

Буквенное обозначение файла считается приемлемым только в формате robots.txt;
Инструкция располагается в корне каталога в единственном экземпляре;
Поисковый робот делает GET-запрос, после него должен последовать ответ 200 OK. Приемлемы протоколы как HTTP, так и HTTPS;
Файл создается в среде наиболее удобного для программиста или оптимизатора текстового редактора (кодировка UTF-8), не должен содержать символы, которые бот не сможет распознать;
Неприемлемо превышение определенной системой границы размера файла, для Гугл это 500 KB, для Яндекс — 32 KB.

Настройка директив

Корневой каталог содержит набор инструкций robots.txt, считается доступным при прописывании одного из протоколов, а также использовании порта. Боты поисковых систем поддерживают протоколы, реализованные с использованием основы URI.

Роботы способны сканировать набор директив:

User-agent, может содержать инструкции, касающиеся как определенного робота одной из поисковых систем, так и одинаковые для всех ботов;
Allow/Disallow, открытие или закрытие индексации, чаще использует запрет сканирования сорных страниц;
Host, распознается системой как указание на главное зеркало ресурса, прописывается в конце списка;
Sitemap, содержит путь актуальной карты сайта;
Clean-param, прописывает адреса нестатических страниц.

Запрет сканирования

Разработка, редизайн проектов в большинстве случаев требуют закрытия страниц для индексации роботами поисковых систем. Существует несколько способов запрета сканирования сайта или версии, на которой ведутся работы:

Закрытие индексации через директиву User-agent для бота определенной поисковой системы или для всех сразу;
Файл может содержать закрытие индексации определенного типа, для этого требуется прописать путь расположения элемента (используется директива Disallow);
При необходимости просканировать отдельную страницу в исключенной папке две директивы запрета и разрешения используются совместно, указывается расположение элемента и его имя;
Если требуется закрыть элемент для робота конкретной поисковой системы, вначале прописывается директива User-agent с указанием бота, а после Disallow, содержащая путь и название.

Существует наиболее простой способ проверить корректность составленного документа. Он заключается в использовании ресурса Яндекс.Вебмастер, в результате пользователь получает отчет с указанием выявленных ошибок. После исправления набора инструкций проверку можно запустить повторно.

Настройка индексации robots.txt

Как создать файл robots.txt

Настройка директив

Запрет сканирования

Автор: Bondap SEO-команда

Похожие SEO статьи

Оставьте заявку