Что такое и как создать файл Robots.txt

Опубликовано: 10 Сентябрь 2010Автор ratemir

Что такое и как создать файл Robots.txtПриятно, когда поисковые системы часто посещают Ваш сайт и индексируют контент. Но иногда бывает так, что индексирование некоторых файлов, становится не желательным. Например, если у вас есть два одинаковых варианта страницы (одна для просмотра в браузере, а другая для печати). Получается, что содержание страницы на Вашем сайте дублируется, ну а поисковики такое не любят. В нашем случае нужно исключить печатную версию из сканирования, иначе Вы рискуете быть наказанным за навязывание повторяющегося контента(то есть спам). Кроме того, если вы хотите сэкономить трафик, исключением из индексации изображений, таблиц стилей и JavaScript, можно также приказать паукам, держаться подальше от этих файлов.

Один из способов сообщить поисковым системам, какие файлы на веб-сайте индексировать, а какие следует избегать, это использовать мета-тег «robots»

Разрешить индексирование
<meta name="robots" content="index, follow" />
Если нужно запретить, то
<meta name="robots" content="noindex, nofollow" />

Но поскольку, теперь не все поисковые системы читают метатеги, роботы могут просто оставить их незамеченными. Поэтому, лучшим способом сообщить поисковым системам о вашей воле, является использование файла robots.txt.

Что такое robots.txt?

Robots.txt это текстовый(не HTML) файл, который Вы положили в корневую папку Вашего сайта и прописали там правила индексирования страниц для поисковых роботов. Robots.txt отнюдь не является обязательным для поисковых систем, но в целом поисковики подчиняются тому, что их попросили не делать.

Важно уточнить, что файл robots.txt не является способом препятствования поисковым системам сканирования Вашего сайта (т.е. это не брандмауэр, или своего рода защита паролем). Это тоже самое, если Вы наклеите записку на незапертую дверь, с надписью «Пожалуйста, не входите», полагая, что этим защита от воров обеспечена. Поэтому, наивно надеяться на защиту robots.txt, от индексации и отображения не желательного контента в результатах поиска.

То, где будет располагаться файл имеет важное значение. Он должен быть расположен в главном каталоге(корневая папка) сайта. Потому что, оказавшись на Вашем ресурсе, в первую очередь поисковые роботы, пытаются найти файл robots.txt в главной директории (например: http://mysite.ru/robots.txt). Не найдя файла и никаких ограничений, поисковый бот начинает индексировать всё подрят, что встретит на своем пути.

Как создать файл robots.txt

Структура robots.txt довольно проста — это список поисковых машин и запрещенных каталогов или файлов. Например:

User-agent: *
Disallow: /cgi-bin/
Disallow: /temp/

Эти строчки означают, что Всем роботам без исключения разрешено сканировать любую папку на сайте, кроме директории «cgi-bin» и «temp»

User-agent: В данной строке указывается поисковый робот или сканер. В нашем случае «*» — для всех роботов. Можно, также прописать конкретного бота. Например: Googlebot (для роботов гугла), Yandex (для яндекса) и т.д.

Disallow: Запрещает индексацию файлов и каталогов. В нашем примере мы запретили индексацию содержимого каталогов «cgi-bin» и «temp»

Чтобы сделать запрет на просмотр роботами некоторых страниц сайта, нужно использовать примерно следующий синтаксис:

User-agent: *
Disallow: /path
Disallow: /path/page.html
Disallow: /path.php?action=print

Disallow: /path Если в ссылке на страницу встретится запись /path , то запрет будет отнесен как к каталогу http://robot.ru/path/, так и к файлу http://robot.ru/path.html

Disallow: /path/page.html Запрет конкретной страницы. К примеру, http://robot.ru/path/page.html

Disallow: /path.php?action=print Запрет на индексирование определенной страницы сайта. Однако, следует учитывать порядок расположения параметров. В случае http://robot.ru/path.php?id=1&action=print запрет работать не будет.

Существует расширенный формат файла robots.txt Например:

User-agent: *
Allow: /files/path.html
Disallow: /files/
Crawl-delay: 10
Request-rate: 1/5
Visit-time: 0600—0845

Allow: имеет разрешающее действие. То есть доступ к файлу http://robot.ru/files/path.html не запрещен, а к каталогу /files/ установлен запрет(Disallow: /files/)

Crawl-delay: 10 Это значит, что между загрузкой страниц робот должен выдерживать какое-то время. В нашем случае 10 секунд. Правда, современные боты, итак выдерживают 1-2 секунды между загрузками, поэтому излишняя нагрузка на сервер не создается.

Request-rate: 1/5 Загружать не более одной страницы за пять секунд

Visit-time: 0600—0845 Загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

На самом деле, существуют поисковые машины, которые не поддерживают некоторые расширения. Например, Рамблер воспринимает только User-agent: и Disallow:



Опубликовать в twitter.comПоделиться ВКонтактеПоделиться в FacebookПоделиться В Моем МиреОпубликовать в своем блоге livejournal.com
Если Вам понравилась статья, Вы можете получать новые материалы Ratemir.ru по: RSS или можете просто получать обновления блога на e-mail:

Оставить комментарий

Наверх