Sidebar

небольшой тутор по robots.txt

  • Раздел «On-Line» — часть данного форума, поэтому следует руководствоваться в первую очередь [URL=/threads/pravila-foruma.17042/]Правилами Форума[/URL] при написании сообщений и создании тем. Помимо этого, есть особые пункты настоящего раздела.

    0. Для чего нужен настоящий раздел? Для того, чтобы форумчане могли ознакомиться с интересными сайтами и онлайн-сервисами в безграничных просторах интернетов, похвастаться своими домашними страничками, обсудить нюансы создания сайтов.

    1. Корректно называйте тему: указывайте адрес сайта в названии темы, либо пишите чья же это домашняя страница (HP).

    2. Прежде чем создавать тему, воспользуйтесь поиском. Вполне возможно, что интересующий вас сайт уже обсуждался. В таком случае, свои мысли нужно писать именно туда, а не плодить одинаковые темы. Дельные сообщения для поднятия старых тем не запрещены. Бесполезные же запрещены и в новых темах. Убедившись в отсутствии темы, смело создавайте свою.

    3. Запрещается обсуждение взлома паролей почты, форумов, других подобных сервисов.

    4.2 В настоящем разделе действует особое правило «4.2». Запрещены сообщения, содержащие вызывающе неверную либо вызывающе неверно интерпретированную информацию, способную привести к развитию нездоровой дискуссии. Мы уважаем чужое мнение, но оставляем за собой право удалять сообщения, безаппеляционно сообщающие вызывающе неверные факты.

Дикс

Циник
21.07.2005
1 827
небольшой тутор по robots.txt

просьба сильно не пинать, просто заинтересовался этой темой, нарыл инфы, перевёл и написал своими словами.
------------------------
Мини-тутор по файлу robots.txt, используемому поисковыми системами типа Google для индексации ваших сайтов.
Как всё происходит:
Гугл имеет множество роботов, типа GoogleBot, GoogleBot-mobile или GoogleBot-image.
Время от времени они запускаются и обходят сайты, индексируя их содержимое.
В последствии выдавая сохранённую инфу в результатах поиска.

Файл robots.txt, лежащий в корневой директории сайта, позволяет указать ботам что нужно индексировать,
а что лучше скрыть от глаз и не выдавать в результаты чьего-либо поиска.
Но нет никакой гарантии, что он будет работать со всеми роботами, поэтому в особо важных случаях рекомендуется
применять другие методы, типа паролей на доступ.

robots.txt по своей структуре очень прост и состоит всего из двух строк:

User-Agent:
и
Disallow:

Первая строка определяет для какого бота вы хотите запретить индексацию нижеследующих директорий.
http://www.robotstxt.org/wc/active.html - здесь находится большой список имен существующих роботов поисковых
систем.
Вторая строка указывает директорию, либо файл, не подлежащие индексации.

robots.txt должен иметь название в нижнем регистре и являться простым текстовым ASCII-файлом.
Корневая директория сайта, это к примеру http://www.robotstxt.org/
Если вы положите файл в http://www.robotstxt.org/wc/, роботы его не обнаружат.

Итак, вот простой пример, запрещающий всем ботам индексировать директорию private

User-Agent: *
Disallow: /private/

Имя директории должно обрамляться слешами, а все боты обозначаются звёздочкой.

Второй пример показывает как запретить GoogleBotу шариться в файлах admin.php и search.php, а
GoogleBot-image не получит доступа к директории files.
Все боты без исключения не могут войти в папку tree.

User-Agent: *
Disallow: /tree/

User-Agent: GoogleBot
Disallow: /admin.php
Disallow: /search.php

User-Agent: GoogleBot-image
Disallow: /files/

Имя файла должно начинаться со слеша.
Чтобы запретить полный доступ к сайту поисковым роботам, укажите один слеш, означающий корневую директорию:

User-Agent: *
Disallow: /


Имена файлов и директорий чувствительны к регистру.
К примеру, Disallow: /private_file.html заблокирует http://www.example.com/private_file.html,
но не закроет доступ к http://www.example.com/Private_File.html.

Также в файле можно добавлять комментарии.
Комментарием считается любой текст, следующий после решётки #.

# /robots.txt file for http://webcrawler.com/
# mail [email protected] for constructive criticism


Если вы имеете доступа к корневой директории сервера, используйте мета-теги.
Но, к сожалению, не все роботы обращают на них внимание.

Мета-теги располагаются в теге <head> документа.
Пример мета-тега:
<meta name="robots" content="index,follow">
Атрибут content может содержать следующие директивы:
index, noindex, follow и, соответственно, nofollow.
index - разрешает роботу индексировать данную страницу.
follow - разрешает проходить по ссылкам и индексировать последующие страницы.
"no" перед директивой запрещает данное действие.

Нельзя писать в одном атрибуте конфликтующие или повторяющиеся директивы:
<meta name="robots" content="INDEX,NOINDEX,NOFOLLOW,FOLLOW,FOLLOW">

Значения ALL и NONE включают и выключают действие директив:
<meta name="robots" content="all=index,follow">
<meta name="robots" content="none=index,follow">

Значения атрибутов name и content чувствительны к регистру.

/ http://www.robotstxt.org/wc/meta-user.html - HTML Author's Guide to the Robots META tag. (на англ.) /
 

Game Server

Доноры Красавчики

Пользователи онлайн

Нет пользователей онлайн.