Разбираемся в robots.txt Yandex.версия | SEO блог: доход и раскрутка.
Уникальные партнерки. Высоке доходы и стабильность выплат.
«Blogun»:
покупка/продажа рекламы в блогах.
[Регистрация]
«FileSonic»:
файловое хранилище, до 30$ за 1000 скачиваний!
[Регистрация]
«Liex»:
Выгодная биржа статей. 100к участников.
[Регистрация]
«ТрафикХолдер»:
лучший трафик по лучшим ценам, принимают webmoney.
[Регистрация]

Разбираемся в robots.txt Yandex.версия

мая 11, 2009

Статья будет полезна тем, кто хочет оптимизировать свой сайт под yandex.ru и др. поисковые системы. Суть рассмотренной темы о robots.txt — самому указать механизм сбора информации для ботов поисковиков на вашем сайте.
Основные возможности:

Директива User-agent.
Управлять доступом робота Яндекса к вашему сайту вы можете при помощи файла robots.txt, который должен быть размещен в корневой директории сайта. Робот Яндекса поддерживает стандарт описания http://www.robotstxt.org/wc/norobots.html с расширенными возможностями, описанными ниже.
В роботе Яндекса используется сессионный принцип работы, на каждую сессию формируется определенный пул страниц, которые планирует закачать робот. Сессия начинается с закачки robots.txt сайта, если его нет, он не текстовый или на запрос робота возвращается HTTP-код отличный от '200', считается, что доступ роботу не ограничен. В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются. Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.

Использование директив Disallow и Allow.
Чтобы запретить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Disallow'. Примеры:

User-agent: Yandex
Disallow: / # блокирует доступ ко всему сайту

User-agent: Yandex
Disallow: /cgi-bin # блокирует доступ к страницам начинающимся с '/cgi-bin'

Примечание:
Недопустимо наличие пустых переводов строки между директивами 'User-agent' и 'Disallow' ('Allow'), а также между самими 'Disallow' ('Allow') директивами.
Кроме того, в соответствии со стандартом перед каждой директивой 'User-agent' рекомендуется вставлять пустой перевод строки.
Символ '#' предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.
Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Allow'. Примеры:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц начинающихся с '/cgi-bin'

Совместное использование директив.
Если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке. Примеры, если:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц начинающихся с '/cgi-bin'
User-agent: Yandex
Disallow: /
Allow: /cgi-bin
# запрещает скачивать весь сайт

Директивы Allow-Disallow без параметров.
Отсутствие параметров у директивы трактуется следующим образом:

User-agent: Yandex
Disallow: # тоже что и Allow: /

User-agent: Yandex
Allow: # тоже что и Disallow: /

Использование спецсимволов «*» и «$».
При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:

User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'

Спецсимвол '$'.
По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:

User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое

чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например:

User-agent: Yandex
Disallow: /example$ # запрещает '/example', но не запрещает '/example.html'
User-agent: Yandex
Disallow: /example # запрещает и '/example', и '/example.html'
User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example' запрещает и /example.html и /example

Директива Sitemap.
Если вы используете описание структуры вашего сайта в формате sitemaps.xml, и хотите, чтобы робот узнал о ней, укажите путь к sitemaps.xml, в качестве параметра директивы 'Sitemap' (если файлов несколько, укажите все), примеры:

User-agent: Yandex
Allow: /
Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml

или
User-agent: Yandex
Allow: /

User-agent: *
Disallow: /

Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mysite.ru/site_structure/my_sitemaps2.xml

Робот запомнит пути к sitemaps.xml, обработает файлы и будет использовать результаты при последующем формировании сессий закачки.

Директива Host.
Если ваш сайт имеет зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву 'Host', определив в качестве ее параметра имя главного зеркала. Директива 'Host' не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом. Пример:

#Если www.glavnoye-zerkalo.ru главное зеркало сайта, то robots.txt
#для всех сайтов из группы зеркал выглядит так
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru

Важная отсебятина: имя домена с www и без него — разные сайты, до того момента пока их не склеит робот зеркальщик. В идеале поисковик это делает без ваших подсказок, но лучше ему помочь. Как правило, для облегчения жизни пользователям, сайт вводят без www (Пример: raskrutim.info). Тогда Host будет прописан так:

Host: raskrutim.info

мелкими буквами и без http:\\
Чтобы понять чем важна эта команда, рассмотрим следующую ситуацию. У вас несколько дубликатов одного сайта на разных хостингах для более быстрой работы с ресурсом ( Пример: raskrutim.info — основной и легкий для запоминания, сайт1231231.com и сайт278567567.com — его копии, www.raskrutim.info — тоже может быть копией и быть на отдельном хостинге). Но об этом знаете вы и матерые пользователи, а робот не в курсе. Он выберет случайно главным для индексации сайт1231231.com. Следовательно остальные исключит из индексации. Из — за этого пользователи будут видеть в поиске сайт1231231.com и могут просто не запомнить его адрес. Еще вариант. Ваш сайт кто то нагло скопировал, поисковик благодаря вашей команде, не будет индексировать тот сайт.

#Пример корректно составленного robots.txt, при обработке которого директива Host учитывается
User-Agent: *
Disallow:
Host: www.myhost.ru

#Примеры некорректно составленных robots.txt, при обработке которых директива Host может не учитываться
#1.
User-Agent: *
Host: www.myhost.ru

#2.
Host: www.myhost.ru

#3.
User-Agent: *
Host: www.myhost.ru
Disallow:

#4.
Host: www.myhost.ru
User-Agent: *
Disallow:

Важно: параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки 'Host:' игнорируются.
# Примеры игнорируемых директив Host

Host: www.myhost- .ru
Host: www. -myhost.ru
Host: www.myhost.ru:100000
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my...host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru

Примеры использования директивы Host:

# domen.myhost.ru является главным зеркалом www.domen.myhost.ru,
# тогда корректное использование директивы Host такое
User-Agent: *
Disallow:
Host: domen.myhost.ru

# domen.myhost.ru является главным зеркалом www.domen.myhost.ru,
# тогда некорректное использование директивы Host такое
User-Agent: *
Disallow:
Host: myhost.ru

Директива Crawl-delay.
Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой «Crawl-delay». Она позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву «Crawl-delay» необходимо добавлять в группе, начинающейся с записи «User-Agent», непосредственно после директив «Disallow» («Allow»).
Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.
Примеры:

User-agent: Yandex
Crawl-delay: 2 # задает таймаут в 2 секунды

User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймаут в 4.5 секунды

Директива Clean-param.
Если адреса страниц вашего сайта содержат динамические параметры которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т.п.), вы можете описать их при помощи директивы 'Clean-param'. Робот Яндекса, используя эту информацию, не будет многократно перезакачивать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, на сайте есть страницы:

www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123

параметр 'ref=' используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой 'book_id=123'. Тогда, если в robots.txt указать:
Clean-param: ref /some_dir/get_book.pl

вот так:
User-agent: Yandex
Disallow:
Clean-param: ref /some_dir/get_book.pl

робот Яндекса сведет все адреса страницы к одному:
www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123,

и будет чаще обходить другие страницы вашего сайта, так как нет необходимости обновлять страницы:
www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123

Синтаксис использования директивы:
Clean-param: p0[&p1&p2&..&pn] [path]
В первом поле через '&' перечисляются параметры, которые нужно не учитывать. Во втором поле указывается префикс пути страниц, для которых нужно применить правило.

Примечание:
Префикс может содержать регулярное выражение в формате, аналогичном robots.txt, но с некоторыми ограничениями: можно использовать только символы A-Za-z0-9. -/*_. При этом * трактуется так же, как в robots.txt. В конец префикса всегда неявно дописывается '*', то есть:
Clean-param: s /forum/showthread.php

означает, что параметр s будет считаться незначащим для всех url-ов, начинающихся с /forum/showthread.php. Второе поле указывать необязательно, в этом случае правило будет применяться для всех страниц сайта. Регистр учитывается. Действует ограничение на длину правила — 500 символов. Например:

Clean-param: abc /forum/showthread.php
Clean-param: sid&sort /forumt/*.php
Clean-param: someTrash&otherTrash

Дополнительные примеры:
#для адресов вида:
www.site1.ru/forum/showthread.php?s=681498b9648949605&t=8243
www.site1.ru/forum/showthread.php?s=1e71c4427317a117a&t=8243
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/showthread.php
#для адресов  вида:
www.site2.ru/index.php?page=1&sort=3a&sid=2564126ebdec3150c2d5d3e1c607e5df
www.site2.ru/index.php?page=1&sort=3a&sid=974017dcd170d6f0640bd2ec4a5d76ae
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: sid /index.php
#если таких параметров несколько:
www.site1.ru/forum_old/showthread.php?s=681498b9648949605&t=8243&ref=131951
www.site1.ru/forum_new/showthread.php?s=1e71c4427317a117a&t=8243&ref=989612
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s&ref /forum*/showthread.php
#если параметр используется в нескольких скриптах:
www.site1.ru/forum/showthread.php?s=681498b9648949605&t=8243
www.site1.ru/forum/index.php?s=1e71c4427317a117a&t=8243
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/index.php
Clean-param: s /forum/showthread.php

Дополнительная информация.
Директивы robots.txt, которые не упомянуты в данном описании, робот Яндекса не поддерживает.

Необходимо помнить, что результат использования расширений формата robots.txt может отличаться от результата без них, а именно:
User-agent: Yandex
Allow: /
Disallow: /
# без расширений все запрещалось так как 'Allow: /' игнорировалось,
# с поддержкой расширений все разрешается

User-agent: Yandex
Disallow: /private*html
# без расширений запрещалось '/private*html',
# а с поддержкой расширений и '/private*html',
# и '/private/test.html', и '/private/html/test.aspx' и т.п.

User-agent: Yandex
Disallow: /private$
# без расширений запрещалось '/private$' и '/private$test' и т.п.,
# а с поддержкой расширений только '/private'

User-agent: *
Disallow: /
User-agent: Yandex
Allow: /
# без расширений из-за отсутствия перевода строки,
# 'User-agent: Yandex' было бы проигнорировано и
# результатом стало бы 'Disallow: /', но робот Яндекса
# выделяет записи по наличию в строке 'User-agent:',
# результат для робота Яндекса в данном случае 'Allow: /'

User-agent: *
Disallow: /
# комментарий1...
# комментарий2...
# комментарий3...
User-agent: Yandex
Allow: /
# аналогично предыдущему примеру (см. выше)

Примеры использования расширенного формата robots.txt:
User-agent: Yandex
Allow: /archive
Disallow: /
# разрешает все, что содержит '/archive', остальное запрещено

User-agent: Yandex
Allow: /obsolete/private/*.html$ # разрешает html файлы по пути '/obsolete/private/...'
Disallow: /*.php$  # запрещает все '*.php' на данном сайте
Disallow: /*/private/ # запрещает все подпути содержащие '/private/', но Allow выше отменяет часть запрета
Disallow: /*/old/*.zip$ # запрещает все '*.zip' файлы, содержащие в пути '/old/'

User-agent: Yandex
Disallow: /add.php?*user=
# запрещает все скрипты 'add.php?' с параметром 'user'

При написании robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Слишком большие robots.txt (более 256 Кб) считаются полностью разрешающими, то есть рассматриваются аналогично:
User-agent: Yandex
Disallow:

Также разрешающими считаются robots.txt, которые не удалось закачать (например, по причине неправильных http-заголовков) или отдающие 404 ошибку.

Оригинал статьи на Яндексе

По ссылке вы сможете найти следующие :
Добавление и индексация сайта
Удаление сайта
Как работает робот
Зеркала сайтов
Советы вебмастеру
Мои сайты
Подтверждение прав
Информация о сайте
Структура сайта
Ошибки сайта
Использование robots.txt
Анализатор robots.txt
Файлы Sitemap
Поисковый индекс
Сообщения
Регистр имени сайта
Приложения
Справочник по ошибкам индексации
Справочник по кодам статуса HTTP
Справочник по ошибкам анализа robots.txt
Справочник по ошибкам обработки файлов Sitemap

Оригинал статьи на Яндексе

Анализ вашего robots.txt

Это конечно перепечатка материала с небольшой отсебятиной, но, если выложить просто ссылку, никто же не стал бы по ней переходить.

Понравилась статья? Получайте новости с RSS ленты блога или сразу на е-мэйл. Подписка бесплатная и займет меньше минуты.

Похожие записи:



6 комментариев на запись “Разбираемся в robots.txt Yandex.версия”

  1. Владимир Малкин on мая 23, 2009 11:32

    Увлекательно! Только не могу понять насколько часто обновляется блог? :)

  2. admin on мая 23, 2009 13:08

    В идеале, 1 день — одна статья, все зависит от появляющихся мыслей и времени :)

    Подписывайтесь на RSS ленту, будите в курсе обновлений новостей.

  3. Роберт on июня 26, 2009 12:25

    Действительно, на самом деле все очень просто :)

  4. Ярослав Павлюченко on июля 10, 2009 2:19

    Немного провакационный пост. Поэтому такие и комментсы :)

  5. Егор on августа 19, 2009 21:52

    Интересно написано, на самом деле все читал как говорится на одном дыхании :)

  6. БAKИHEЦ on января 1, 2010 23:19

    Информация полезная. Спасибо. Хотелось бы только апдейтов почаще

Trackback URI | Комментарии в RSS

Оставить комментарий

Имя (обязательно)

Email (обязательно)

Проверка от спам-ботов (обязательно)
введите цифрами сто тридцать

Ваше сообщение