Пользуемся файлом robots.txt

Тоже из старенького :)

Допустим у вас есть свой веб-сайт. Пойдем дальше. Допустим вы захотели добавить его в базу данных поисковых машин Google, Yahoo, Yandex, Rambler... Существует много разных методов это сделать. Это целое направление которое получило название SOE (search engine optimization) . Если вы хотите серьезно этим заняться, то вам следует на это потратить намного больше времени, чем требуется для прочтения одной статьи.

Здесь я всего этого касаться не буду. Итак. Считаем что вы уже зарегестрировали свой сайт в поисковых машинах, Google,Yahoo,Yandex,Ramble

Теперь по крайней мере 4 поисковых машины знают о вашем сайте (но все равно вам придется подождать иногда и пару месяцев, пока они проиндексируют сайт). Вот здесь и возникает проблема. Допустим у меня есть сайт. Например http://www.moysait.ru/ на котором есть одна страничка, например http://www.moysait.ru/data/loads.php, которая содержит мою приватную информацию. Доступ на нее имеют только определенные пользователи. Но роботы поисковых машин этого не понимают, пока им это не укажешь. Для этого и существует файл robots.txt, который нужно поместить в корень вашего сайта.

Формат файла robots.txt file указан стандартами Robot Exclusion Standard.

Файл robots.txt состоит из записей. Каждая запись состоит как минимум из двух строк: строки с названием клиентского приложения - User-agent, и одной или нескольких строк, начинающихся с директивы Disallow. Пустые строки в файле robots.txt являются значимыми, они разделяют записи, имеющие разные строки User-agent.

Приведу некоторые примеры:

Роботам всех поисковых машин разрешена индексация всех страниц сайта:

User-agent: *

Disallow:

Роботам всех поисковых машин разрешена индексация всех страниц сайта:

User-agent: *

Disallow:/

Запретить роботу Google индексировать поддиректории, начинающиеся с private :

User-agent: googlebot

Disallow:/private*/

Запретить доступ ко всем страницам, содержащим знак ? :

User-agent: *

Disallow:/*?*

С помощью знака $ вы можете указывать на конец файла. Например блокировать все файлы, заканчивающиеся на .php :

User-agent: *

Disallow:/*.php$

Помимо директивы Disallow, можна еще использовать и Allow или их комбинацию.

Например :

User-agent: *

Alloew: /*?$

Disallow:/*?

Т.е. Disallow:/*? будет блокировать все URLs заключающие в себе знак ?, но опция Alloew: /*?$ разрешит URLs, которые заканчиваются на ?.

Ну и пример, про который я говорил в самом начале.

# No index my file downloads.php

User-agent: *

Disallow: /data/loads.php

(знак # служит для включения коментариев).

Чтобы протестировать что у вас получилось, советую воспользоваться утилитой для вебмастеров, которая доступна всем, имеющим учетную запись Google.

Еще записи по теме

Оставьте комментарий!

Ваше имя

Используйте нормальные имена. Ваш комментарий будет опубликован после проверки.

Вход/регистрация (войти без комментирования)

E-mail Пароль

Ваше имя Сайт

Имя и сайт используются только при регистрации

Если вы уже зарегистрированы как комментатор или хотите зарегистрироваться, укажите пароль и свой действующий email. При регистрации на указанный адрес придет письмо с кодом активации и ссылкой на ваш персональный аккаунт, где вы сможете изменить свои данные, включая адрес сайта, ник, описание, контакты и т.д., а также подписку на новые комментарии.

Введите нижние символы

Защита от спама: введите только нижние символы

(обязательно)

««	Октябрь 2025					»»
Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Блог о Linux и Windows

Записки по настройке Debian Ubuntu и Microsoft Windows

Пользуемся файлом robots.txt

Еще записи по теме

Оставьте комментарий!

Сумма прописью макрос для OpenOffice или LibreOffice

Настройка локали консоли в Debian (Ubuntu)

Поднимаем на Windows Server 2008 r2 сервер удалённых рабочих столов