Роль файла robots.txt в оптимизации Blogspot Blogger

Здравствуйте, мои дорогие читатели. Последнее время все чаще у меня спрашивают про инструменты для вебмастеров Google и Яндекс, а именно про файл robots.txt, про запрещенные к индексации страницы или заблокированные страницы в файле robots.txt.

Роль файла robots.txt в оптимизации Blogger Blogspot
Странно получается, сначала мы ищем информацию о том, как оптимизировать blogger, выполняем все рекомендации, а потом только начинаем задавать вопросы, почему у меня заблокированы страницы и как их разблокировать.
Поэтому я и решила рассмотреть оптимизацию блогов Blogger/Blogspot с точки зрения файла robots.txt. Начну по порядку, с того, что вообще такое файл robots.txt.

Файл robots.txt – по сути это обычный текстовый файл, который находится в корневой папке сайтов.

http://site.ru/robots.txt

Файл обычный, а вот содержание этого файла очень важное. Файл robots.txt был задуман для того, чтобы управлять индексацией сайта. Указывать поисковому роботу, что можно индексировать, а что нельзя.

Естественно, возникает вопрос, а зачем вообще что-то запрещать, пусть робот индексирует все.

Первая и самая очевидная ситуация. С развитием интернета все больше сайтов поддерживают регистрацию и личные кабинеты пользователей с такой информацией, с которой сами пользователи не захотели бы делиться. Так же, к этой ситуации можно отнести и такие, когда на сайте есть разделы доступные для всех пользователей, и разделы, доступные только для зарегистрированных пользователей. Думаю, с этим понятно. И такое содержание специально запрещается к индексации.

Но есть и другая ситуация, которую мы рассмотрим более подробно.

Все современные сайты являются динамическими. Многие пользователи наивно полагают, что динамический сайт, это тот, на котором бегающие строчки, картинки сами сменяют друг друга и т.п. и то, что называют флеш-сайт. На самом деле, динамический сайт к этому не имеет никакого отношения. И слово динамика возникла совсем по другой причине.

Я не являюсь профессионалом, поэтому могу где-то употребить не совсем точные формулировки, но надеюсь, мне удастся передать вам суть. Представьте себе интернет-магазин. На сайте есть форма поиска товара по разным критериям. На один и тот же товар можно попасть употребив разные фильтры. Например, фильтр по производителям может привести к товару, который так же можно выбрать, применив фильтр по цене и габаритам. Использование различных фильтров создает в URL страницы разный путь до товара. И один и тот же товар может находиться на 2-3-4-х разных URL.

Вот тут начинается путаница, а какая из всех этих страниц является правильной и самой важной? Какую страницу показывать в результатах поиска? Вот тут и приходит на выручку такой файл, как robots.txt. В котором указано, что все URL, которые возникли в результате применения фильтров, индексировать нельзя.

Отличительной особенностью всех URL, которые сформировались в процессе выбора товаров, является присутствие специальных символов или слов. Вернемся к нашим блогам. Я предлагаю вам разобрать один частный случай. Этот случай не частый, но и не редкий, особенно, на начальном этапе ведения блогов, когда мы ещё не все понимаем. Прошу отнестись к этому случаю, как к виртуальному примеру, т.е. совершенно не обязательно, что такое может быть у вас, но при этом отнестись со всей серьезностью, потому что такие случаи все же не редкость.
Условие

  1. Вы показываете полный текст статьи на главной, не пряча часть статьи под кат.
  2. Этой статье вы присвоили ярлык, по которому у вас ещё нет других статей, кроме этой.

Зайдем на нашу воображаемую статью, она имеет адрес

http://мой_блог/дата/моя_статья

Помните, вы присвоили этой статье ярлык, которого ещё нет ни у одной статьи. Вы только что решили придумать писать на эту тему, и других статей на эту тему у вас нет. Зайдем на страницу этого ярлыка. Он имеет URL

http://мой_блог/search/label/название_ярлыка

И что мы видим. На этой странице наша статья, в полном варианте, т.к. мы не прячем ее под кат, и других статей у нас вообще нет.

В итоге получается, одна и та же статья присутствует сразу по двум разным адресам. Какая из этих двух страниц является правильной? Какая важнее? Поисковый робот не может определить разницу между этими страницами и считает их практически одинаковыми.

Вот к такому содержанию поисковые роботы относятся очень негативно. И даже, когда мы начинаем прятать статьи под кат, и даже, когда у нас по ярлыку находится несколько статей, поисковой системе не нравится, что у нас вообще складываются такие страницы. Такая ситуация носит название – дублирование контента.

Поэтому, чтобы поисковые системы не ругались, чтобы лучше ранжировали наш блог, в файле robots.txt стоит запись:

User-agent: *
Disallow: /search

Которая означает, что любые роботы всех поисковых систем не должны индексировать страницы, которые имеют в себе директиву /search. Это сделано для нашего блага разработчиками платформы. И обнаружив в инструментах предупреждение, что какие-то страницы заблокированы (запрещены) файлом robots.txt, не нужно впадать в панику и переживать, что на вашем сайте что-то не индексируется.

Похожая ситуация складывается и с архивами. Например, у вас на главной странице блога отображается 10 статей. Адрес главной страницы

http://мой_блог

Итак, получается, что все эти 10 статей написаны в ноябре. Многие используют виджет Архив. Выберем в архиве Ноябрь, мы увидим все те же 10 статей, которые сейчас находятся на главной странице блога, но в адресной строке браузера мы видим совершенно другой URL

http://мой_блог/2010_11_01_archive.html

Одно и тоже содержание по разным адресам. Вот такие страницы архива мы намеренно запрещаем к индексации через мета-теги.
Нечто подобное складывается из-за стандартного листинга страниц блога не по отдельным статьям, а когда можно листать главную страницу. В результате листания главной страницы образуются адреса вида

http://мой_блог/search?updated-max=2010-06-17T16%3A17%3A00%2B03%3A00&max-results=7

Казалось бы, в URL этой страницы содержится директива /search, но я обратила внимание, что Google постоянно индексирует эти страницы. Именно поэтому у меня нет листинга по страницам.

Я его просто удалила, чтобы не складывалось таких страниц. При этом все, которые попадаются в поиске, я удаляю вручную в инструментах веб-мастера на вкладке Конфигурация сайта – Доступ для сканера – Удалить URL.

Часто в индекс Google (в Яндекс я с таким не сталкивалась) попадают и страницы Ярлыков, которые запрещены файлом robots.txt. Все такие URL я так же удаляю в инструментах вебмастера Google.

UPD от 14.05.2015 Раньше было огромной проблемой отсутствие возможности редактировать файл robots.txt. Сейчас разработчики Blogger такую возможность предоставили. Подробнее о файле robots.txt для Blogger вы можете прочитать в статье Оптимизация Blogger - свежий взгляд.

Запись опубликована автором в рубрике Как создавать сайты с метками , , .

Роль файла robots.txt в оптимизации Blogspot Blogger: 30 комментариев

  1. mangust_ru

    Подскажите пожалуйста, как удалить листинг по страницам? Я поискала в настройках, не нашла такого. Это нужно корректировать в самом коде шаблона?

  2. SEO-Дилетант'ка

    Да, нужно удалять код из самого шаблона. Точный код сказать не могу, т.к. уже не помню. Но начинать нужно с этого кода:

      

        
          
          
          

        

  3. Retliff

    Катя, я нашёл такую фразу:»Все такие URL я так же удаляю в инструментах вебмастера Google»
    Если не трудно — расскажи как!-)

  4. Надежда Хачатурова

    Интересно, первый раз увидела, что у меня половина страниц не индексируются. Причем, это оказался список имен людей, о которых я писала или брала интервью. Что делать в таких случаях? Понятно, что у каждого есть свои ресурсы. Их нужно удалять из запрещенных? Возможно, вопрос ставлю не правильно, потому что один раз только с этим столкнулась, не вникала. Оставила все как есть, а здесь, как всегда, тема, которая меня интересует. Не удержалась спросить.

  5. SEO-Дилетант'ка

    Надежда, мне сложно заново все объяснить, т.к. в статье именно об этом и идет речь. Самая большая ваша ошибка в том, что вы путаете страницы со статьями об этих людях, со страницами с ярлыками, которые вы присвоили статьям об этих людях. Это совершенно разные страницы, и путать их ни в коем случае нельзя. Прочитайте внимательней статью, и посмотрите внимательно адреса страниц в адресной строке браузера, когда вы нажимаете на ярлык и, когда нажимаете на заголовок статьи.

  6. Геннадий

    У меня этих страниц накопилось уже более 70-ти(((
    Самое главное, невозможно понять, почему одни страницы индексируются нормально, а другие нет(появляется этот лабэ).
    А что дает их ручное этих URL? Так, для «очистки совести»

  7. SEO-Дилетант'ка

    По твоему комментарию не совсем поняла, каких именно страниц больше 50-ти…
    лабэ — это ярлыки (лабел)? А почему невозможно понять?
    Статье присваиваешь ярлык — вот страница и появляется.
    Ручное удаление повышает качество твоего блога.

  8. Геннадий

    Не проиндексировано более 50 страниц, а выглядят почти все примерно так: http://mixajluta.blogspot.com/search/label/духовные люди
    /label — это то самое «лабэл» :) URL, запрещенный файлом robots.txt — вот так. Я похоже вообще попал (или был) под фильтры гугла. Блогу почти пять месяцев — PR -ноль. Раньше хоть основной индекс был нулевым, а недавно нули по всем трем позициям. Чёт натворил ((, а сам не знаю что?
    Одно утешает — яндекс вроде бы снова начал индексировать))

  9. SEO-Дилетант'ка

    Страницы с ярлыками нужно делать, и без них не обойтись. И то, что они запрещены к индексации — так и должно быть и ничего с этим не нужно выдумывать.
    Фильтр гугла (если он есть) и запрет в файле robots.txt никак не связаны между собой, и даже совсем наоборот, в роботсе специально запрещают страницы к индексации, чтобы не попасть под фильтр гугла.
    По-поводу PR — его обновления не было с начала апреля, т.е. уже скоро 7 месяцев, поэтому с этим у вас проблем просто не может быть.
    Раньше хоть основной индекс был нулевым, а недавно нули по всем трем позициям — а вот по поводу этого, я опять ничего не поняла.

  10. Геннадий

    Я использовал этот ресурс http://webplus.info/
    В нем указывается индексация в Google по трем позициям. Раньше был нулевым только основной, сейчас нули на всех трех.
    Проверил в другом http://www.pr-cy.ru/analysis/ в нем проверял тоже по трем позициям. Здесь http://www.google.com/search?&q=site:mixajluta.blogspot.com (421 страница в поиске),
    здесь http://www.google.com/search?&q=site:mixajluta.blogspot.com/& (это без фильтра, 426),
    и еще http://www.google.com/search?&q=allinurl:mixajluta.blogspot.com/+site:mixajluta.blogspot.com (1640 страниц ???)
    Покопался еще по сайтам, нашел один на котором смог определить более- менее точное количество страниц, попавших в основной индекс, их всего 12. О сайте напишу отдельную статью.
    Вот, чему верить?

  11. SEO-Дилетант'ка

    Здравствуйте, Евгений.
    Спасибо за ссылку, конечно же, статья интересная, я подписана на этот блог, все, что описано в той статье — это стандартная оптимизация блогов на Blogspot, которую необходимо сделать сразу же после создания блога. Не знаю, в какую сторону Вы листали мой дневник, но вот Вам ссылки на статьи раз и два.

  12. Роман

    Здравствуйте Катерина. Такой вопрос. У меня блог молодой и недавно в инструментах вэбмастера как гугла так и яндекса увидел, что моих проиндексированных страниц очень мало. Зато те, которые запрещены для индексации (http://мой_блог/search/label/название_ярлыка) довольно много. Скажите,вообще, это нормально для блога такое отношение поисковиков и будут ли проиндексированы поисковиками оригиналы моих постов?

  13. SEO-Дилетант'ка

    Да, все поисковики так индексируют сайты, сначала «заглатывают» все возможные страницы, и, как правило, архивы, ярлыки. Скорее всего они так делают, чтобы понять структуру сайта. Возможно, для них это имеет какое-то значение. Если блогу до месяца, то особо волноваться пока не стоит. Можете у меня в блоге поискать, есть несколько статей про индексации вообще и про индексацию новых блогов в частности.

  14. Alisa92

    Спасибо большое за такую нужную информацию! Просто и доступно, просто молодец :-))

  15. SEO-Дилетант'ка

    По поводу листинка, посмотрите мою статью про удаление внешних ссылок, про листинг там нет, но станет более понятно, как искать.
    URL — вставьте в строку поиска Google:
    allinurl:domen .ru/ site:domen .ru
    Вместо домен вставьте ваш блог, уберите пробелы перед .ru (пробелы сделала из-за дискуса, чтобы не сделал ссылкой).
    В полученных результатх просмотрите все страницы. Если вы скрывали архивы, то в поиске должны быть только страницы блога:
    главная
    страницы со статьями
    статические страницы.
    Все остальное — быть не должно. вот остальное и удаляется в инструментах для вебмастеров.
    Но может так случиться, что не все страницы удастся удалить. Это специфика blogger.

  16. Юрий

    Здравствуйте,Екатерина. Блогу чуть больше 2 недель и недавно увидел в листинге длинную ссылку на архив. Нашел в шаблоне ссылку с кодом post-count-link и закомментировал ее и rel=»nofollow». Посмотрел — на вашем блоге ссылки архива без этих тегов.Хотел спросить, поможет ли это от дублирования?

  17. SEO-Дилетант'ка

    Заключение внутренних ссылок в noindex и nofollow не влияет на дублирование. Такие ссылки в любом случае индексируются поисковыми системами.

  18. auditconsult.biz

    «Основная проблема блогов Blogger/blogspot заключается в том, что у нас нет доступа к файлу robots.txt, который мы могли бы изменить самостоятельно так, как хотим». Это да, на что мешает подключить sitemap и как только яндекс прочитает карту сайта, сразу же появится в окошке Robots.txt надпись Sitemap: http://вашблог.blogspot.com/feeds/posts/default?orderby=updated

  19. SEO-Дилетант'ка

    Как бы в добавлении RSS ленты в качестве sitemap — проблемы нет, т.е. это не обсуждается, как проблема. И этот способ известен. И добавление ленты в Яндекс Вебмастер не добавляет эту ленту в файл Robots.txt. Просто поисковики принимают RSS ленты в качестве sitemap, но robots.txt от этого не меняется.

  20. Вовчик Тимофеев

    Ребят  у нас нет доступа к robots.txt, но! У нас есть доступ к html, мета теги такая вещь которая помогает именно в таких ситуациях -мы же не бежим в фтп создавать файл keyword.txt, мы идем в index.php и пишем

  21. Bratmos

    Не могу разобраться с удалением url,посоветуйте, где именно и какой участок кода необходимо удалить?

  22. Aleksei

    Спасибо Автору за статью а то не пойму что же такое и в гугл веб мастере пишет что проблемы с индексацией и Яндекс пишет что страницы намеренно запрещены в файле robot.txt,я уже и как вы пишете в статье в панику впал))

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *