Странно получается, сначала мы ищем информацию о том, как оптимизировать blogger, выполняем все рекомендации, а потом только начинаем задавать вопросы, почему у меня заблокированы страницы и как их разблокировать.
Поэтому я и решила рассмотреть оптимизацию блогов Blogger/Blogspot с точки зрения файла robots.txt. Начну по порядку, с того, что вообще такое файл robots.txt.
Файл robots.txt – по сути это обычный текстовый файл, который находится в корневой папке сайтов.
http://site.ru/robots.txt
Файл обычный, а вот содержание этого файла очень важное. Файл robots.txt был задуман для того, чтобы управлять индексацией сайта. Указывать поисковому роботу, что можно индексировать, а что нельзя.
Естественно, возникает вопрос, а зачем вообще что-то запрещать, пусть робот индексирует все.
Первая и самая очевидная ситуация. С развитием интернета все больше сайтов поддерживают регистрацию и личные кабинеты пользователей с такой информацией, с которой сами пользователи не захотели бы делиться. Так же, к этой ситуации можно отнести и такие, когда на сайте есть разделы доступные для всех пользователей, и разделы, доступные только для зарегистрированных пользователей. Думаю, с этим понятно. И такое содержание специально запрещается к индексации.
Но есть и другая ситуация, которую мы рассмотрим более подробно.
Все современные сайты являются динамическими. Многие пользователи наивно полагают, что динамический сайт, это тот, на котором бегающие строчки, картинки сами сменяют друг друга и т.п. и то, что называют флеш-сайт. На самом деле, динамический сайт к этому не имеет никакого отношения. И слово динамика возникла совсем по другой причине.
Я не являюсь профессионалом, поэтому могу где-то употребить не совсем точные формулировки, но надеюсь, мне удастся передать вам суть. Представьте себе интернет-магазин. На сайте есть форма поиска товара по разным критериям. На один и тот же товар можно попасть употребив разные фильтры. Например, фильтр по производителям может привести к товару, который так же можно выбрать, применив фильтр по цене и габаритам. Использование различных фильтров создает в URL страницы разный путь до товара. И один и тот же товар может находиться на 2-3-4-х разных URL.
Вот тут начинается путаница, а какая из всех этих страниц является правильной и самой важной? Какую страницу показывать в результатах поиска? Вот тут и приходит на выручку такой файл, как robots.txt. В котором указано, что все URL, которые возникли в результате применения фильтров, индексировать нельзя.
Отличительной особенностью всех URL, которые сформировались в процессе выбора товаров, является присутствие специальных символов или слов. Вернемся к нашим блогам. Я предлагаю вам разобрать один частный случай. Этот случай не частый, но и не редкий, особенно, на начальном этапе ведения блогов, когда мы ещё не все понимаем. Прошу отнестись к этому случаю, как к виртуальному примеру, т.е. совершенно не обязательно, что такое может быть у вас, но при этом отнестись со всей серьезностью, потому что такие случаи все же не редкость.
Условие
Зайдем на нашу воображаемую статью, она имеет адрес
http://мой_блог/дата/моя_статья
Помните, вы присвоили этой статье ярлык, которого ещё нет ни у одной статьи. Вы только что решили придумать писать на эту тему, и других статей на эту тему у вас нет. Зайдем на страницу этого ярлыка. Он имеет URL
http://мой_блог/search/label/название_ярлыка
И что мы видим. На этой странице наша статья, в полном варианте, т.к. мы не прячем ее под кат, и других статей у нас вообще нет.
В итоге получается, одна и та же статья присутствует сразу по двум разным адресам. Какая из этих двух страниц является правильной? Какая важнее? Поисковый робот не может определить разницу между этими страницами и считает их практически одинаковыми.
Вот к такому содержанию поисковые роботы относятся очень негативно. И даже, когда мы начинаем прятать статьи под кат, и даже, когда у нас по ярлыку находится несколько статей, поисковой системе не нравится, что у нас вообще складываются такие страницы. Такая ситуация носит название – дублирование контента.
Поэтому, чтобы поисковые системы не ругались, чтобы лучше ранжировали наш блог, в файле robots.txt стоит запись:
User-agent: *
Disallow: /search
Которая означает, что любые роботы всех поисковых систем не должны индексировать страницы, которые имеют в себе директиву /search. Это сделано для нашего блага разработчиками платформы. И обнаружив в инструментах предупреждение, что какие-то страницы заблокированы (запрещены) файлом robots.txt, не нужно впадать в панику и переживать, что на вашем сайте что-то не индексируется.
Похожая ситуация складывается и с архивами. Например, у вас на главной странице блога отображается 10 статей. Адрес главной страницы
http://мой_блог
Итак, получается, что все эти 10 статей написаны в ноябре. Многие используют виджет Архив. Выберем в архиве Ноябрь, мы увидим все те же 10 статей, которые сейчас находятся на главной странице блога, но в адресной строке браузера мы видим совершенно другой URL
http://мой_блог/2010_11_01_archive.html
Одно и тоже содержание по разным адресам. Вот такие страницы архива мы намеренно запрещаем к индексации через мета-теги.
Нечто подобное складывается из-за стандартного листинга страниц блога не по отдельным статьям, а когда можно листать главную страницу. В результате листания главной страницы образуются адреса вида
http://мой_блог/search?updated-max=2010-06-17T16%3A17%3A00%2B03%3A00&max-results=7
Казалось бы, в URL этой страницы содержится директива /search, но я обратила внимание, что Google постоянно индексирует эти страницы. Именно поэтому у меня нет листинга по страницам. [ads1]Я его просто удалила, чтобы не складывалось таких страниц. При этом все, которые попадаются в поиске, я удаляю вручную в инструментах веб-мастера на вкладке Конфигурация сайта – Доступ для сканера – Удалить URL.
Часто в индекс Google (в Яндекс я с таким не сталкивалась) попадают и страницы Ярлыков, которые запрещены файлом robots.txt. Все такие URL я так же удаляю в инструментах вебмастера Google.
Доброго дня, читатели блога SEO-Дилетанта. Я всегда получаю много вопросов от вебмастеров, владельцев сайтов и блогеров об ошибках и сообщениях,…
*Рекламный обзор Доброго дня, читатели Блога SEO-Дилетанта. Кнопки «Поделиться» и «Подписаться на обновления» необходимы любому сайту для…
Доброго дня, читатели блога SEO-Дилетанта. На днях* в августе 2016 года я полностью перевела свой блог на защищенный протокол…
Доброго дня, читатели блога SEO-Дилетанта. Обычно подобные посты пишут в конце года, и я готовила его в декабре, но не успела…
Доброго дня, читатели Блога SEO-Дилетанта. В сети множество статей о создании и настройке блога на WordPress. Каждый автор видит…
Доброго дня, читатели блога SEO-Дилетанта. О том, как выбрать хостинг, написано немало статей. Только в Яндексе на данный…
This website uses cookies.
View Comments
Подскажите пожалуйста, как удалить листинг по страницам? Я поискала в настройках, не нашла такого. Это нужно корректировать в самом коде шаблона?
Да, нужно удалять код из самого шаблона. Точный код сказать не могу, т.к. уже не помню. Но начинать нужно с этого кода:
Катя, я нашёл такую фразу:"Все такие URL я так же удаляю в инструментах вебмастера Google"
Если не трудно - расскажи как!-)
С утра ещё и не такое бывает:)
Интересно, первый раз увидела, что у меня половина страниц не индексируются. Причем, это оказался список имен людей, о которых я писала или брала интервью. Что делать в таких случаях? Понятно, что у каждого есть свои ресурсы. Их нужно удалять из запрещенных? Возможно, вопрос ставлю не правильно, потому что один раз только с этим столкнулась, не вникала. Оставила все как есть, а здесь, как всегда, тема, которая меня интересует. Не удержалась спросить.
Надежда, мне сложно заново все объяснить, т.к. в статье именно об этом и идет речь. Самая большая ваша ошибка в том, что вы путаете страницы со статьями об этих людях, со страницами с ярлыками, которые вы присвоили статьям об этих людях. Это совершенно разные страницы, и путать их ни в коем случае нельзя. Прочитайте внимательней статью, и посмотрите внимательно адреса страниц в адресной строке браузера, когда вы нажимаете на ярлык и, когда нажимаете на заголовок статьи.
У меня этих страниц накопилось уже более 70-ти(((
Самое главное, невозможно понять, почему одни страницы индексируются нормально, а другие нет(появляется этот лабэ).
А что дает их ручное этих URL? Так, для "очистки совести"
По твоему комментарию не совсем поняла, каких именно страниц больше 50-ти...
лабэ - это ярлыки (лабел)? А почему невозможно понять?
Статье присваиваешь ярлык - вот страница и появляется.
Ручное удаление повышает качество твоего блога.
Не проиндексировано более 50 страниц, а выглядят почти все примерно так: http://mixajluta.blogspot.com/search/label/духовные люди
/label - это то самое "лабэл" :) URL, запрещенный файлом robots.txt - вот так. Я похоже вообще попал (или был) под фильтры гугла. Блогу почти пять месяцев - PR -ноль. Раньше хоть основной индекс был нулевым, а недавно нули по всем трем позициям. Чёт натворил ((, а сам не знаю что?
Одно утешает - яндекс вроде бы снова начал индексировать))
Тех, которые запретил robot.txt. Выглядят почти все так: http://mixajluta.blogspot.com/search/label/духовные люди
Есть совсем новые. Я так понимаю, что нужно стремиться к тому, что бы не было страниц, которые запрещает робот... Но как, не оставлять же их без ярлыков.