Robots.txt против Sitemap

Опубликовано: 2 Июль 2010Автор ratemir

Robots против Sitemap

Большинство страниц любого сайта открыты для индексации поисковыми системами, но существуют страницы, которые вы не хотите индексировать.

Сегодня, когда я натолкнулся на страницы своего сайта, которые не должны были быть проиндексированы, я был немного удивлен/поражен. Содержание было специально заблокировано от пауков с помощью 2 различных методов — robots.txt и мета-тегами NOINDEX/NOFOLLOW.

Однако при дальнейшем исследовании причин индексации, логика привела меня к файлу Sitemap.XML. Когда я убрал не нужный текст(ссылки на страницы) из файла Sitemap, то правила блокировки контента заработали.

Так что ситуация здесь такая, что robots.txt говорит: «Блокировать», а sitemap.xml говорит: «Позволить». Sitemap.xml получается победил — содержание индексируется независимо от соответствующих инструментов.
И это понятно. Я думал, что robots.txt выступает в качестве безотказного инструмента не индексации страницы, но это на самом деле не цель robots.txt. Robots.txt больше предназначен как инструкция для роботов сканеров, которые слепо сканируют содержание. Если будет найдена ссылка на не желательную страницу, то сканер не станет посещать ее.
Однако, когда вы пишите файл sitemap.xml, вы конкретно предлагаете ботам посещать и индексировать страницы. Поэтому боты иногда игнорируют инструкции в файле robots.txt.

Таким образом, это значит, что особое внимание необходимо отдавать при создании вашего файла sitemap.xml.



Опубликовать в twitter.comПоделиться ВКонтактеПоделиться в FacebookПоделиться В Моем МиреОпубликовать в своем блоге livejournal.com
Если Вам понравилась статья, Вы можете получать новые материалы Ratemir.ru по: RSS или можете просто получать обновления блога на e-mail:

3 комментариев к “Robots.txt против Sitemap”

  • Пётр
    5 Июль, 2010, 22:00

    Спасибо! Приму к сведению

  • karser
    27 Июль, 2010, 20:17

    Sitemap.XML победил NOINDEX/NOFOLLOW + robots.txt, не ожидал! сильно...

  • usipusi
    17 Август, 2010, 15:19

    Значит вы хотите сказать, даже если мы блокируем ссылки с помощью файлов robot.txt и по-прежнему включаем их в Sitemap.xml, то поисковики всё равно будут их индексировать? Надо проверить это интересное наблюдение.

Оставить комментарий

Наверх