Создать форум бесплатно: ixbb.ru :: Календарь на Май 2024 года: calendar2008.ru/2024/may/

  Reply to this topicStart new topicStart Poll

Бот Яшки беспределом занимается!

centurion
Отправлено: Nov 15 2007, 11:37 PM
Quote Post


  Команда ЭйсВэб
*

Группа: Members
Сообщений: 1265
Пользователь №: 959
Регистрация:
16-June 07




Интересное кино получается. Я в файле роботс индексацию страниц запретил, а потом их закачал. И что вы думаете? Этот "нехороший бот" все проигнорировал и закачал страницы, в кэш не смотря на запрет. Я сначала подумал, что это было сделано ранее до запрета индексации, а теперь смотрю, он и свежие страницы, которые 100% были запрещены и только потом размещены на сервере, тоже в индекс включил.

Бот яндекса, похоже, запреты вообще игнорирует!

PMAOLYahooMSN
Top
STRALIS
Отправлено: Nov 16 2007, 12:09 AM
Quote Post


  Генерал
*

Группа: Members
Сообщений: 174
Пользователь №: 1187
Регистрация:
7-October 07



QUOTE (centurion @ Nov 15 2007, 08:37 PM)
Интересное кино получается. Я в файле роботс индексацию страниц запретил, а потом их закачал. И что вы думаете? Этот "нехороший бот" все проигнорировал и закачал страницы, в кэш не смотря на запрет. Я сначала подумал, что это было сделано ранее до запрета индексации, а теперь смотрю, он и свежие страницы, которые 100% были запрещены и только потом размещены на сервере, тоже в индекс включил.

Бот яндекса, похоже, запреты вообще игнорирует!

Да не должен он ничего игнорировать, просто наверное надо проверить настройки и размещение фаила robots.txt

пример:
User-agent: *
Disallow: /error404.php
Disallow: /error500.php
Disallow: /img/
Disallow: /cgi-bin/
Disallow: /temp/

Имена ботов :
Рамблер - StackRambler
Яндекс - Yandex
Google - Googlebot
MSN – msnbot


--------------------
Все права защищены
1976-2009 © V 3.3
PMEmail Poster
Top
centurion
Отправлено: Nov 16 2007, 12:41 AM
Quote Post


  Команда ЭйсВэб
*

Группа: Members
Сообщений: 1265
Пользователь №: 959
Регистрация:
16-June 07



User-agent: *
Disallow: /game_partner.html
Disallow: /google.html
Disallow: /love_partner.html
Disallow: /partner_program.html
Disallow: /podpiska.html
Disallow: /post_sponsors.html
Disallow: /ssilki/
Disallow: /xxx.html

Ну и что не так???

Вот смотри на примере.
Страница _www.lubly.ru/love_partner.html была загружена на хост в старом варианте. Была проиндексированна и сейчас в кэше сохранена в первоначальном виде. Только потом я ее запретил к индексации. Все вроде сходится.

Теперь страница _www.lubly.ru/post_sponsors.html
Она имеет новый дизайн, но текстом не наполнена. Нет времени с ней работать. Я прописал запрет и только потом загрузил на хост. А она тоже теперь в кэше содержится в новом варианте дизайна.

Как это понимать?


PMAOLYahooMSN
Top
STRALIS
Отправлено: Nov 16 2007, 01:37 AM
Quote Post


  Генерал
*

Группа: Members
Сообщений: 174
Пользователь №: 1187
Регистрация:
7-October 07



Как поисковые системы реагируют на robots.txt

Единой модели поведения поисковых роботов при встрече с файлами robots.txt, во время индексации сайта, нет.

Большинство поисковых роботов начинает индексацию сайта, в первую очередь, с изучения файла robots.txt.

При отсутствии robots.txt-файла большинство поисковых роботов индексируют сайт, но качество индексации сайта, и, как следствие, прибыль от сайта, уменьшается.

Правила исключения, указанные в файле robots.txt, соблюдают не все роботы поисковых систем. Есть роботы, которые либо не следуют правилам исключения, либо игнорируют файл robots.txt на сайте.

Роботы популярных поисковых систем, как правило, следуют инструкциям, указанным в файле robots.txt.

Разработчики алгоритма поисковых систем могут запустить специального поискового робота, который проиндексирует сайт, не учитывая файл robots.txt.


--------------------
Все права защищены
1976-2009 © V 3.3
PMEmail Poster
Top

Topic Options Reply to this topicStart new topicStart Poll

 



[ Script Execution time: 0.0232 ]   [ 10 queries used ]   [ GZIP выключен ]