Работа с поисковиками. Как проверить файл robots.txt.

Практически каждый начинающий web разработчик сталкивается с проблемой написания файла robots.txt. На эту тему написано немало руководств, но все равно проблема актуальна. Ведь, прочитав этот файл, поисковый робот может пройти мимо ваше сайта или некоторых его разделов. Сегодня мы посмотрим, как можно проверить этот файл.

В первую очередь, напомню, что указания для поисковых роботов можно задать двумя способами: в файле robots.txt и с помощью тега <meta name=»robots» … />. Основное отличие этих методов в том, что в robots.txt задаются правила для всего сайта, а действие тега <meta name=»robots» … /> распространяется только на ту страницу, где он находится.

Рассмотрим пример. Допустим, у нас есть блог, работающий на каком-нибудь движке (например, WordPress). Нам нужно, чтобы поисковые роботы индексировали наши посты, но не заходили в служебные директории (индексировать там нечего, а трафик уходит).

Для этого мы создаем в корневой каталоге файл robots.txt. Описывать правила составления этого файла я не буду. Уверен, что вы сможете легко найти его описание с примерами. Например, для WordPress готовый файл можно взять здесь.

После этого, нам нужно ограничить доступ к страницам, которые содержат список постов (обычно это главная и страницы разделов). Точнее нам нужно, чтобы роботы просматривали эти страницы и переходили по ссылкам на них, но не индексировали их содержимое, т.к. оно изменяется по мере написания постов.

Сделать это можно с помощью тега <meta name=»robots» … />.
Страница, которую нужно проиндексировать и перейти по всем ссылкам на ней, должна содержать тег <meta name=»robots» content=»index,follow» />.
А страница, которую нельзя индексировать – <meta name=»robots» content=»noindex,follow» />.

Для того, чтобы вставить эти теги в WordPress добавим в файле header.php (он находится в папке с вашей темой /wp-content/themes/название_темы/) между тегами <head> и </head> следующий код:

<?php if(is_single() || is_page()) { ?>
<meta name="robots" content="index,follow" />
<?php } else { ?>
<meta name="robots" content="noindex,follow" />
<?php }?>

Теперь посмотрим, что у нас получилось. В первую очередь, проверим файл robots.txt на отсутствие ошибок. Для этого удобно использовать службу Яндекса.

Убедиться, что мы случайно не закрыли доступ к нужным страницам можно с помощью Google webmasters tools. Для использования этой службы нужно, во-первых, зарегистрироваться, а, во-вторых, подтвердить, что это ваш сайт/блог (для этого нужно у себя на сайте разместить файл со специальным именем).

После этого заходим в меню Панель инструментов -> Инструменты -> Анализ Robots.txt. И в окне «Проверка URL по этому файлу robots.txt» вводим адреса страниц, которые хотим проверить (каждый с новой строки). Жмем кнопку «Проверить» и изучаем результат.

Примечание: обязательно убедитесь, что разрешено индексирование не только отдельных постов, но и статических страниц.

Проверить установку тегов <meta name=»robots» … /> проще. Зайдите на интересующую вас страницу и просмотрите ее код (в IE – “Вид->Просмотр html кода”, в Firefox – “Вид->Исходный код страницы”, в Opera – “Вид->Исходный код”).

Напоминаю,
content=»index,follow» означает, что робот может индексировать страницу и переходить по ссылкам на ней;
content=»noindex,follow» – нельзя индексировать страницу, но можно переходить по ссылкам на ней;
content=»index,nofollow» – можно индексировать, но нельзя переходить по ссылкам
content=»noindex,nofollow» – нельзя индексировать и нельзя переходить по ссылкам.

Постовой

Легковые автомобили — Авто в Одесса