Нередко случается так, что если развитием сайта занимаются неосновательно, например, посредством штатного сотрудника, у которого много разноплановых обязанностей (это и маркетолог, и cистемный администратор, и копирайтер в одном лице), результаты от оптимизации плачевны, и технический аудит сайта выявляет – масса ошибок, и чтобы выйти из кризиса нужны многочисленные корректировки.
Одна из очень частых проблем, например, некорректные настройки robots txt. А ведь это файл, который напрямую влияет на качество, скорость индексации сайта. Можно биться головой о стену – собирать новую семантику, создавать многочисленные тексты, приводить в порядок фильтры, но, если есть ошибки в robots txt, о грамотной оптимизации не может быть и речи.
Понимая, как правильно прописать robots txt и аккуратно реализуя эту затею, вы по сути диктуете поисковым роботам правила, указываете, какие разделы ресурса нужно учитывать первоочередное, а какие — нет. Если некоторые удивляются, что вообще возникает потребность скрывать страницы, то значит, они забывают, что на сайте есть, к примеру, личные кабинеты, формы регистрации.
Что ещё не стоит показывать поисковым роботам:
- Админ-панели сайта (т.е. пути, которые начинаются с /user, /admin, /administrator).
- Пустые страницы.
- Корзины приобретения товаров.
Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем.
Синтаксис robots.txt
Файл robots.txt имеет определённый синтаксис. Чтобы его соблюсти, важно, с одной стороны помнить о структуре, а с другой, не допускайте распространённый перечень ошибок.
Как должен выглядеть robots txt?
Правила читаются поисковыми роботами сверху вниз по порядку. При этом структура выглядит так:
Указание робота 1
- Директивы для выполнения данным роботом.
- Дополнительные опции.
Затем аналогично указания, директивы, опции прописываются для другого робота.
Как избежать ошибок?
- Не указывайте в одной строке больше одной директивы
- Проверяйте, нет ли в начале строк пробелов.
- Помните, что параметры директивы должны быть в одну строку, а вот закрывающих точки с запятой они не требуют, ровно, как и обрамление в кавычки.
- Для команды директивы в robots.txt предусмотрен формата вида - [Имя_директивы]:[необязательный пробел][значение][необязательный пробел];
- Название файла не допускает наличие заглавных букв. Причём одинаково ошибочным будет как написание Robots.txt, так и ROBOTS.TXT. Кто-то может сказать: но ведь по стандарту robots.txt нечувствителен к регистру. В чём тогда проблема.
- Если вы хотите сделать доступными условия для того, чтобы оставлять комментарий, в начале строки пропишите символ шарп (#).
Директивы
User-agent
Эта директива создаёт указания конкретному роботу (обратите внимание - указания, не команды, не условия). Но именно для того, чтобы команды и условия выполнялись User-agent и нужен. Без него условия, команды будут просто текстом, а по сути «мертвым грузом» при SEO- продвижении.
С данной директивы начинается любой корректный robots.txt. Если User-agent отсутствует, пользы от дальнейших данных в документе с правилами – ноль.
Применение User-agent: примеры robots txt
Рассмотрим robots.txt для Google и Yandex
Вот самые распространенные варианты:
- User-agent: Yandex. Устанавливает правила для всех роботов Яндекса.
- User-agent: Googlebot. Указывает директивы для всех роботов Google.
- User-agent: YandexBot. Прописывает правила для только основного индексирующего робота Яндекса
User-agent: YandexBot и User-agent: Googlebot-News. Они прописывают правила, связанные с индексацией новостей. Вы когда-нибудь обращали, что в новостной ленте одни ресурсы «мелькают» чаще, иные - реже. Во многом это заслуга именно файла с правилами.
Если вы занимаетесь продвижением интернет-магазина, не забывайте про боты, связанные с коммерческими факторами ранжирования.
Яркий пример - Google StoreBot. Его зона ответственности – сканирование страниц с информацией о продуктах, оплатах.
Disallow
- Запрещает обход разделов, группы страниц или отдельных страниц сайта.
- Чаще всего применяется для скрытия временных, динамических, технических страниц, включая:
- страницы посещаемости ресурса,
- дубли,
- страницы с результатами поиска непосредственно на сайте;
- сервисные страницы баз данных,
- различные логи (файлы с записями событий в системе),
- страницы с персональными данными пользователей.
Sitemap
Это настоящая сокровищница, где аккумулированы все страницы ресурса для индексирования. Именно эта директива отправляет поисковому роботу ценную информацию о наличии карты сайта или карт сайта (многие, например, создают отдельные карты для работы с информационными и коммерческими запросами).
Настройка robots.txt в Wordpress
- Cпециальные плагины позволяют редактировать robots.txt прямо из панели администратора. Один из таких плагинов присутствует в WordPress.
- Специалисту не нужно тратить время и силы на самостоятельное создание файла в корневом каталоге.
- А вот сама настройка базируется на правилах, которые уже описаны выше.
Опытные специалисты подходят к robots txt детализировано, понимая, что дифференцированно работая с веб-страницами, ресурсными файлами (второстепенным изображениями, скриптами и файлами стилей), медиафайлами можно обозначить правила индексации максимально чётко и за счёт этого ускорить процесс индексации.