Роль файла robots.txt в оптимизации Blogspot Blogger ~ SEO простым языком

Роль файла robots.txt в оптимизации Blogspot Blogger

Здравствуйте, мои дорогие читатели. Последнее время все чаще у меня спрашивают про инструменты для вебмастеров Google и Яндекс, а именно про файл robots.txt, про запрещенные к индексации страницы или заблокированные страницы в файле robots.txt.

Странно получается, сначала мы ищем информацию о том, как оптимизировать blogger, выполняем все рекомендации, а потом только начинаем задавать вопросы, почему у меня заблокированы страницы и как их разблокировать.
Поэтому я и решила рассмотреть оптимизацию блогов Blogger/Blogspot с точки зрения файла robots.txt. Начну по порядку, с того, что вообще такое файл robots.txt.

Файл robots.txt – по сути это обычный текстовый файл, который находится в корневой папке сайтов.

http://site.ru/robots.txt

Файл обычный, а вот содержание этого файла очень важное. Файл robots.txt был задуман для того, чтобы управлять индексацией сайта. Указывать поисковому роботу, что можно индексировать, а что нельзя.

Естественно, возникает вопрос, а зачем вообще что-то запрещать, пусть робот индексирует все.

Первая и самая очевидная ситуация. С развитием интернета все больше сайтов поддерживают регистрацию и личные кабинеты пользователей с такой информацией, с которой сами пользователи не захотели бы делиться. Так же, к этой ситуации можно отнести и такие, когда на сайте есть разделы доступные для всех пользователей, и разделы, доступные только для зарегистрированных пользователей. Думаю, с этим понятно. И такое содержание специально запрещается к индексации.

Но есть и другая ситуация, которую мы рассмотрим более подробно.

Все современные сайты являются динамическими. Многие пользователи наивно полагают, что динамический сайт, это тот, на котором бегающие строчки, картинки сами сменяют друг друга и т.п. и то, что называют флеш-сайт. На самом деле, динамический сайт к этому не имеет никакого отношения. И слово динамика возникла совсем по другой причине.

Еще по теме Основы оптимизации сайта

Я не являюсь профессионалом, поэтому могу где-то употребить не совсем точные формулировки, но надеюсь, мне удастся передать вам суть. Представьте себе интернет-магазин. На сайте есть форма поиска товара по разным критериям. На один и тот же товар можно попасть употребив разные фильтры. Например, фильтр по производителям может привести к товару, который так же можно выбрать, применив фильтр по цене и габаритам. Использование различных фильтров создает в URL страницы разный путь до товара. И один и тот же товар может находиться на 2-3-4-х разных URL.

Вот тут начинается путаница, а какая из всех этих страниц является правильной и самой важной? Какую страницу показывать в результатах поиска? Вот тут и приходит на выручку такой файл, как robots.txt. В котором указано, что все URL, которые возникли в результате применения фильтров, индексировать нельзя.

Отличительной особенностью всех URL, которые сформировались в процессе выбора товаров, является присутствие специальных символов или слов. Вернемся к нашим блогам. Я предлагаю вам разобрать один частный случай. Этот случай не частый, но и не редкий, особенно, на начальном этапе ведения блогов, когда мы ещё не все понимаем. Прошу отнестись к этому случаю, как к виртуальному примеру, т.е. совершенно не обязательно, что такое может быть у вас, но при этом отнестись со всей серьезностью, потому что такие случаи все же не редкость.
Условие

Вы показываете полный текст статьи на главной, не пряча часть статьи под кат.
Этой статье вы присвоили ярлык, по которому у вас ещё нет других статей, кроме этой.

Зайдем на нашу воображаемую статью, она имеет адрес

http://мой_блог/дата/моя_статья

Помните, вы присвоили этой статье ярлык, которого ещё нет ни у одной статьи. Вы только что решили придумать писать на эту тему, и других статей на эту тему у вас нет. Зайдем на страницу этого ярлыка. Он имеет URL

http://мой_блог/search/label/название_ярлыка

И что мы видим. На этой странице наша статья, в полном варианте, т.к. мы не прячем ее под кат, и других статей у нас вообще нет.

Еще по теме Правильное написание статей для сайта

В итоге получается, одна и та же статья присутствует сразу по двум разным адресам. Какая из этих двух страниц является правильной? Какая важнее? Поисковый робот не может определить разницу между этими страницами и считает их практически одинаковыми.

Вот к такому содержанию поисковые роботы относятся очень негативно. И даже, когда мы начинаем прятать статьи под кат, и даже, когда у нас по ярлыку находится несколько статей, поисковой системе не нравится, что у нас вообще складываются такие страницы. Такая ситуация носит название – дублирование контента.

Поэтому, чтобы поисковые системы не ругались, чтобы лучше ранжировали наш блог, в файле robots.txt стоит запись:

User-agent: *
Disallow: /search

Которая означает, что любые роботы всех поисковых систем не должны индексировать страницы, которые имеют в себе директиву /search. Это сделано для нашего блага разработчиками платформы. И обнаружив в инструментах предупреждение, что какие-то страницы заблокированы (запрещены) файлом robots.txt, не нужно впадать в панику и переживать, что на вашем сайте что-то не индексируется.

Похожая ситуация складывается и с архивами. Например, у вас на главной странице блога отображается 10 статей. Адрес главной страницы

http://мой_блог

Итак, получается, что все эти 10 статей написаны в ноябре. Многие используют виджет Архив. Выберем в архиве Ноябрь, мы увидим все те же 10 статей, которые сейчас находятся на главной странице блога, но в адресной строке браузера мы видим совершенно другой URL

http://мой_блог/2010_11_01_archive.html

Одно и тоже содержание по разным адресам. Вот такие страницы архива мы намеренно запрещаем к индексации через мета-теги.
Нечто подобное складывается из-за стандартного листинга страниц блога не по отдельным статьям, а когда можно листать главную страницу. В результате листания главной страницы образуются адреса вида

http://мой_блог/search?updated-max=2010-06-17T16%3A17%3A00%2B03%3A00&max-results=7

Казалось бы, в URL этой страницы содержится директива /search, но я обратила внимание, что Google постоянно индексирует эти страницы. Именно поэтому у меня нет листинга по страницам. [ads1]Я его просто удалила, чтобы не складывалось таких страниц. При этом все, которые попадаются в поиске, я удаляю вручную в инструментах веб-мастера на вкладке Конфигурация сайта – Доступ для сканера – Удалить URL.

Еще по теме Первый результат

Часто в индекс Google (в Яндекс я с таким не сталкивалась) попадают и страницы Ярлыков, которые запрещены файлом robots.txt. Все такие URL я так же удаляю в инструментах вебмастера Google.

UPD от 14.05.2015 Раньше было огромной проблемой отсутствие возможности редактировать файл robots.txt. Сейчас разработчики Blogger такую возможность предоставили. Подробнее о файле robots.txt для Blogger вы можете прочитать в статье Оптимизация Blogger — свежий взгляд.

Екатерина Михайлова

Next Моя стратегия раскрутки в Твитере »

Previous « Как подбирать эффективные поисковые запросы

View Comments

mangust_ru says:

at

Подскажите пожалуйста, как удалить листинг по страницам? Я поискала в настройках, не нашла такого. Это нужно корректировать в самом коде шаблона?
SEO-Дилетант'ка says:

at

Да, нужно удалять код из самого шаблона. Точный код сказать не могу, т.к. уже не помню. Но начинать нужно с этого кода:
Retliff says:

at

Катя, я нашёл такую фразу:"Все такие URL я так же удаляю в инструментах вебмастера Google"
Если не трудно - расскажи как!-)
SEO-Дилетант'ка says:

at

С утра ещё и не такое бывает:)
Надежда Хачатурова says:

at

Интересно, первый раз увидела, что у меня половина страниц не индексируются. Причем, это оказался список имен людей, о которых я писала или брала интервью. Что делать в таких случаях? Понятно, что у каждого есть свои ресурсы. Их нужно удалять из запрещенных? Возможно, вопрос ставлю не правильно, потому что один раз только с этим столкнулась, не вникала. Оставила все как есть, а здесь, как всегда, тема, которая меня интересует. Не удержалась спросить.
SEO-Дилетант'ка says:

at

Надежда, мне сложно заново все объяснить, т.к. в статье именно об этом и идет речь. Самая большая ваша ошибка в том, что вы путаете страницы со статьями об этих людях, со страницами с ярлыками, которые вы присвоили статьям об этих людях. Это совершенно разные страницы, и путать их ни в коем случае нельзя. Прочитайте внимательней статью, и посмотрите внимательно адреса страниц в адресной строке браузера, когда вы нажимаете на ярлык и, когда нажимаете на заголовок статьи.
Геннадий says:

at

У меня этих страниц накопилось уже более 70-ти(((
Самое главное, невозможно понять, почему одни страницы индексируются нормально, а другие нет(появляется этот лабэ).
А что дает их ручное этих URL? Так, для "очистки совести"
SEO-Дилетант'ка says:

at

По твоему комментарию не совсем поняла, каких именно страниц больше 50-ти...
лабэ - это ярлыки (лабел)? А почему невозможно понять?
Статье присваиваешь ярлык - вот страница и появляется.
Ручное удаление повышает качество твоего блога.
Геннадий says:

at

Не проиндексировано более 50 страниц, а выглядят почти все примерно так: http://mixajluta.blogspot.com/search/label/духовные люди
/label - это то самое "лабэл" :) URL, запрещенный файлом robots.txt - вот так. Я похоже вообще попал (или был) под фильтры гугла. Блогу почти пять месяцев - PR -ноль. Раньше хоть основной индекс был нулевым, а недавно нули по всем трем позициям. Чёт натворил ((, а сам не знаю что?
Одно утешает - яндекс вроде бы снова начал индексировать))
Геннадий says:

at

Тех, которые запретил robot.txt. Выглядят почти все так: http://mixajluta.blogspot.com/search/label/духовные люди
Есть совсем новые. Я так понимаю, что нужно стремиться к тому, что бы не было страниц, которые запрещает робот... Но как, не оставлять же их без ярлыков.