
Большинство страниц любого сайта открыты для индексации поисковыми системами, но существуют страницы, которые вы не хотите индексировать.
Сегодня, когда я натолкнулся на страницы своего сайта, которые не должны были быть проиндексированы, я был немного удивлен/поражен. Содержание было специально заблокировано от пауков с помощью 2 различных методов — robots.txt и мета-тегами NOINDEX/NOFOLLOW.
Однако при дальнейшем исследовании причин индексации, логика привела меня к файлу Sitemap.XML. Когда я убрал не нужный текст(ссылки на страницы) из файла Sitemap, то правила блокировки контента заработали.
Так что ситуация здесь такая, что robots.txt говорит: «Блокировать», а sitemap.xml говорит: «Позволить». Sitemap.xml получается победил — содержание индексируется независимо от соответствующих инструментов.
И это понятно. Я думал, что robots.txt выступает в качестве безотказного инструмента не индексации страницы, но это на самом деле не цель robots.txt. Robots.txt больше предназначен как инструкция для роботов сканеров, которые слепо сканируют содержание. Если будет найдена ссылка на не желательную страницу, то сканер не станет посещать ее.
Однако, когда вы пишите файл sitemap.xml, вы конкретно предлагаете ботам посещать и индексировать страницы. Поэтому боты иногда игнорируют инструкции в файле robots.txt.
Таким образом, это значит, что особое внимание необходимо отдавать при создании вашего файла sitemap.xml.

3 комментариев к “Robots.txt против Sitemap”
Спасибо! Приму к сведению
Sitemap.XML победил NOINDEX/NOFOLLOW + robots.txt, не ожидал! сильно...
Значит вы хотите сказать, даже если мы блокируем ссылки с помощью файлов robot.txt и по-прежнему включаем их в Sitemap.xml, то поисковики всё равно будут их индексировать? Надо проверить это интересное наблюдение.