Мета тег Robots и файл Robots.txt – как управлять индексацией страниц сайта

Доброго времени суток, уважаемые читатели. Задумала я тут поделиться с вами одним интересным материалом на тему внутренней оптимизации WordPress, а именно про установку мета тегов, и поняла, что чтобы получился хороший материал, необходимо прояснить ситуацию с тем, что такое мета тег Robots. Мета тег Robots и файл Robots.txt – как управлять индексацией страниц сайта Когда и для чего применяется. В чем разница использования файла Robots.txt и мета тега Robots.
Robots.txt – это файл, с помощью которого мы можем управлять индексацией своего блога, указывая запрещающие директивы непосредственно в файле как для отдельных страниц, так и для целых каталогов. Более подробно об этом файле я писала применительно к WordPress в статье от 28 декабря 2011 года Файл Robots.txt.

Что такое мета тег Robots

Метатег Robots – это тег, с помощью которого мы можем управлять индексацией своего блога, указывая запрещающие команды для каждой отдельной страницы.

К слову, нет единого написания слова "мета тег". Даже Яндекс и Google по разному их пишут в своих справочных материалах. Мета тег, Мета-тег и Метатег – все это одно слово и используется в сети одновременно. При этом в справке Яндекс он имеет написание Мета-тег, а в Google – Метатег. Давайте сначала разберемся, каким вообще бывает мета тег Robots. Независимо от того, указываете вы этот метатег или нет, его значение всегда - "all", что означает индексировать. Т.е. есть три "состояния" данного мета тега:

  1. Полное его отсутствие.
  2. <meta name="robots" content="all" />
  3. <meta name="robots" content="index, follow" />
Все это означает, что страница будет проиндексирована. Поэтому если вам не нужно запрещать страницу к индексации, то используется первый вариант, т.е. вообще ничего не используем. Если же вы хотите полностью запретить страницу к индексации, то запись будет такой:
<meta name="robots" content="noindex, nofollow"/>
или более короткий вариант
<meta name="robots" content="none"/>
Как вы думаете, почему значение имеет два параметра – index/noindex и follow/nofollow?

  • Значение index/noindex применяется только к тексту страницы.
  • Значение follow/nofollow применяется только к ссылкам на странице.

Вот в этом, а также в самом определении кроется одно значительное преимущество мета тега Robots перед одноименным файлом.

Если вы сравните оба определения, то увидите, что они, практически, одинаковые. Но при этом имеют небольшое различие.

Да, оба способа – создание файла или указание мета тега – одно и тоже, выполняют абсолютно одинаковые функции и обладают абсолютно одинаковой значимостью. Другими словами нельзя сказать, что одно важнее другого. Они абсолютно равнозначны. Но как уже сказала, в них есть некоторые различия.

Вообще метатеги были придуманы не в противовес файлу, а для облегчения жизни тем вебмастерам, которые не имеют доступа к корневым папкам своего сайта, как это, например, происходит на Blogger. Т.е. сами поисковики рекомендуют настраивать файл Robots.txt когда есть доступ к папкам сайта, если же такого доступа нет, то рекомендуется использовать метатег.

Преимущества файла Robots.txt перед мета тегом

На мой взгляд преимущество заключается в том, что в файле Robots.txt мы можем указывать целые каталоги своего сайта, запретить к индексации сразу все теги, рубрики и любые другие каталоги. При чем данный запрет выставляется единой строкой. Если же мы хотим запретить весь каталог, но при этом разрешить к индексации одну-две страницы, то так же в файле мы можем настроить исключения. Обо всем этом я писала в статье, на которую дала ссылку выше, поэтому сейчас кратко передаю суть.

Как же дела обстоят с мета тегом? Мета тег невозможно выставить один раз сразу всему каталогу, он устанавливается для каждой страницы в отдельности. Т.е. им удобно пользоваться тогда, когда на вашем сайте вы с каждой новой публикацией решаете, разрешать поисковому роботу индексировать данную страницу или нет.

Лично мне сложно представить такой сайт, где могло бы это понадобиться. Но факт остается фактом. Если вы не настраиваете файл Robots.txt, но при этом многие страницы закрываете от индексации, то каждый раз вам нужно быть начеку, чтобы не забыть закрыть страницу от индексации. Согласитесь, это неудобно.

Если вы свободны от такой рутины, то всегда значительно удобней и проще настроить один раз и навсегда файл Robots.txt и больше об этом не думать.

Преимущества мета тега Robots перед файлом или, когда лучше использовать мета тег

Я уже обратила ваше внимание на то, что мета тег можно выставлять каждой отдельной странице, так же значительное преимущество нам могут дать разные команды index/noindex и follow/nofollow, которые можно применять в мета теге, и при определенных обстоятельствах все это является большим преимуществом перед файлом.


Ситуация 1. Вы публикуете неуникальный контент. Не обязательно это должен быть копипаст (ворованный контент), это могут быть какие-то официальные документы, законодательные акты, статьи кодексов, т.е. любые материалы, которые создадут на вашем сайте большое количество неуникального контента, при этом страницы с неуникальным контентом не имеют отдельного каталога, а размещаются в вперемешку с основным контентом. Такие страницы вы можете запретить к индексации, как полностью, указав мета тег

<meta name="robots" content="none"/>
так и частично, запретив индексировать только контент, но разрешив индексировать ссылки.
<meta name="robots" content="noindex, follow"/>
или просто
<meta name="robots" content="noindex"/>
Ситуация 2. Второй случай, когда имеет смысл использовать метатег – это при публикации большого количества ссылок на странице. Например, вы хотите поделиться со своими пользователями интересными ссылками, но при этом не хотите скомпрометировать себя перед поисковыми системами, публикуя большой объем внешних ссылок. В таком случае можно запретить страницу к индексации, при этом она будет доступна вашим посетителям. Только не делайте так, если вы обмениваетесь ссылками с кем-то, а именно тогда, когда ни перед никем не обязаны. Опять же, полный запрет к индексации будет таким:
<meta name="robots" content="none"/>
если же вы хотите, чтобы текстовое содержание страницы индексировалось, а ссылки нет, то запись должна быть такой
<meta name="robots" content="index, nofollow"/>
или равнозначная ей запись
<meta name="robots" content="nofollow"/>
Ситуация 3 по сути тоже самое, что и в ситуации 1, но я решила выделить ее отдельно, т.к. она может иметь большое значение. Все мы знаем, что архивы, рубрики и ярлыки создают дублирование контента. Но совсем не обязательно закрывать эти страницы от индексации полностью, ведь на них содержатся ссылки на наши же страницы, и эти ссылки могут участвовать во внутренней перелинковке, передавая свой вес страницам со статьями, главной и другим.Т.е. в метатеге Robots мы можем сообщить поисковику, чтобы он не индексировал текст, т.к. это создает дублирование на сайте, но при этом разрешить переходить по ссылкам на этих страницах. Таким образом не будет нарушаться внутренняя перелинковка на сайте, а даже наоборот, это создает нам дополнительный инструмент для увеличения статического веса страниц внутри сайта.

Таким образом вы можете использовать значение мета тега из ситуации 1 для внутренней перелинковки на сайте. КАк правильно рассчитать внутренний вес страниц и сделать перелинковку, я писала в статье Как проверить и сделать правильно перелинковку на сайте, если же вы ещё не знаете, что такое перелинковка, то рекомендую сначала ознакомиться со статьей – Секреты перелинковки.

Если вы изучите справочные материалы поисковых систем, в частности Яндекс и Google об этом мета теге, то узнаете, что он может иметь и другие значения, помимо index и follow (индексировать и не индексировать).

Так, например Яндекс и Google, помимо озвученных мета Robots, понимает ещё и команду noarchive

<meta name="robots" content="noarchive"/>
Вы можете применять данное значение в том случае, если не хотите, чтобы пользователям поисковых систем в результатах поиска показывалась ссылка копия (Яндекс) и Сохраненная копия (Google), которая ведет на сохраненную копию вашей страницы.Помимо всего перечисленного Google понимает ещё некоторые значения, с которыми я рекомендую вам ознакомиться самостоятельно.

И последнее, на что я хочу обратить ваше внимание особенно.

Для любой поисковой системы абсолютно не важно, каким образом вы указываете команды для индексации, в файле robots.txt или в метатеге robots, а вот если вы в разных случаях используете противоречащие друг другу команды, например в файле robots.txt страница запрещена к индексации, а вы вручную проставляете мета тег со значением "all" или наоборот, то поисковый робот учтет более строгую команду и это всегда будет noindex, т.е. робот учтет запрещающую директиву и не будет индексировать страницу. Поэтому будьте внимательны, если одновременно используете на сайте оба варианта robots.

Итак, все это я объясняла для того, чтобы вы понимали разницу между файлом robots.txt и мета тегом robots. Умение управлять своим сайтом является важной ступенью в общей раскрутке сайта в интернете. Чтобы вы могли самостоятельно решать, какой из способов и когда использовать на своем сайте. А также эти знания вам помогут при прочтении моей следующей статьи, ради которой я и затеяла эту. Так что не пропустите, будет интересно.


Запись опубликована автором в рубрике Как создавать сайты с метками , .

Мета тег Robots и файл Robots.txt – как управлять индексацией страниц сайта: 13 комментариев

  1. 000000

    У Вас замечательный блог, спасибо! Корифеи исписались настолько, что читать уже не хочется: посты про отпуска и проч. Ваш блог — свежая струя.

  2. Андрей

    Полезная информация. Я мета тегом не пользовался никогда, пользовался роботс. Поэкспериментирую теперь с этим тегом.

  3. vlado

    Veľmi dobrá stránka a veľmi dobré články. Natrafil som na túto stránku náhodou, keď som na webe hľadal popis inštalácie phpbb seo a článok o inštalácii tohoto mod-u mi pomohol. Ďakujem
    Vlado, Bratislava, Slovensko 🙂

  4. Shurikus

    Подскажите если на  странице которая уже есть в поиске в коде указать такое сочетание meta name=»robots» content=»noindex, follow», это поможет странице уйти из поиска?
    Дело в том что у меня в одних страницах прописано meta name=»robots» content=»noindex» а на других meta name=»robots» content=»noindex, follow», эти страницы являются дублями и я хочу что бы они исчезли из поиска, поможет ли это? или надо конкретно указывать noindex, nofollow?
    Везде говорится о том что данный способ поможет закрыть от индекса, но пропадут ли из поиска страницы которые там есть?
    Заранее спасибо.

  5. Shurikus

    Подскажите если на  странице которая уже есть в поиске в коде указать
    такое сочетание meta name=»robots» content=»noindex, follow», это
    поможет странице уйти из поиска?

    Дело в том что у меня в одних страницах прописано meta name=»robots»
    content=»noindex» а на других meta name=»robots» content=»noindex,
    follow», эти страницы являются дублями и я хочу что бы они исчезли из
    поиска, поможет ли это? или надо конкретно указывать noindex, nofollow?

    Везде говорится о том что данный способ поможет закрыть от индекса, но пропадут ли из поиска страницы которые там есть?

    Заранее спасибо. 

  6. Cat

    Хороший сайт. Полезная инфа. Может только удобнее для пользователей было бы читать комменты сначала новые. Спасибо за Ваши труды.

  7. mmoguider.ru

    А что такого произойдёт если закрыть index.php через директиву disalow в robot.txt? Я например закрыл, и яндекс отсеял все ненужные дубли страниц с index.php, оставил только нужные. Но правда google вебмастер тоже пишет, что вы закрыли важную страницу. Но эта страница как раз дубль главной. Так что я думаю всё в порядке. Или всё-таки я ошибаюсь?

    1. SEO-Дилетант'ка Автор записи

      На первый свой вопрос вы ответили сами: Google ругается. Вообще согласно последним исследованиям, файл robots.txt для google должен быть максимально открытым. Если расставлять по приоритетам, то 301 редирект считается самым правильным решением, на втором месте — каноникал и только на третьем месте роботс (с точки зрения поисковиков). Грубо — можно использовать любой из способов, но первый всегда будет самым предпочтительным.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *