Використання robots.txt
Іноді буває необхідно сховати від пошукових ботів ті або інші сторінки, що перебувають на сайті. Наприклад, у вас є конфіденційна інформація, доступна тільки для ваших відвідувачів або ж певна частина сторінок не має потреби в індексації, тому що представлено в динамічному виді. Причин, по яких адміністраторові сайту іноді доводиться приховувати різні елементи від індексації не так вже й мало.
При вирішенні такої проблеми можна скористатися файлом robots.txt. Стандарт цього файлу існує з 1996 року і м'яко кажучи застарів. Але, незважаючи на це, їм можна і навіть потрібно користуватися. Зрозуміло, ви не захистите свій сайт від "нечемних" ботів, наприклад тих, які крадуть контент і роблять інші капості, але від деяких роботів все-таки вбережетеся.
Отже. Створюємо файл robots.txt і приступаємо до закриття наших каталогів і сторінок. Імена найвідоміших ботів пишуться так: Googlebot,StackRambler,msnbot,Aport,Yahoo! Slurp (відповідно, це боти Гугла, Рамблера, MSN, Апорта й YAhoo!). З ботом Яндекса справи йдуть більш заплутано, але основний бот, що індексує, це Yandex/1.01.001 (compatіble; Wіn16; І). Більш точна інформація з конкретних ботів може бути знайдена в мережі за лічені хвилини. Сам файл robots.txt складається з окремих записів, де перший запис вказує ім'я бота й пишеться так:
User-agent:
після ж двокрапки вписується ім'я бота. Другий рядок - це команда, що забороняє або дозволяє робити цьому боту певні дії. Припустімо, ми хочемо боту гугла заборонити лазити по директорії books. У цьому випадку, рядок буде виглядати таким чином:
Dіsallow:/books/. Повністю запис, що стосуються директиви відносно бота гугла, повинен відображатися в такому виді:
User-agent:Googlebot
Dіsallow:/books/
Можна заборонити боту індексувати певні файли в тім або іншім каталозі. Для цього в Dіsallow: ми вписуємо ім'я директорії, а потім перші символи, з яких починаються наші файли. Помітимо, що зручне й усім звичне *. і розширення файлу у стандарті robots.txt заборонено. Отже, наша заборона буде виглядати так:
User-agent:Googlebot
Dіsallow:/books/op
(Всі файли, які перебувають у директорії books і починаються з букв "op" будуть виключені з індексації гугловським ботом).
Іноді, може знадобитися заборонити індексувати все, що перебуває на сайті й причому всім ботам одночасно. Робиться це теж просто:
User-agent: *
Dіsallow: /
Зірочка вказує, що це правило відноситься до всіх можливих ботів, а слеш після Dіsallow: - це блокування всіх директорій і файлів, що перебувають на сервері.
Автор: Собокар Кір
Обговорити на форумі(1)
інші статті для починаючих веб-майстрів