Создать форум бесплатно: ixbb.ru :: Календарь на Апрель 2024 года: calendar2008.ru/2024/aprel/

Страницы: (2) [1] 2  ( Перейти к первому непрочитанному сообщению ) Reply to this topicStart new topicStart Poll

Как поисковые боты индексят сайты.

Лена
Отправлено: Apr 10 2006, 01:21 PM
Quote Post


  Главный администратор
*

Группа: Members
Сообщений: 311
Пользователь №: 1
Регистрация:
6-May 06



Автор: lynx
--------------------------------------------------------------------------------

Итак. В ответ на запрос пользователя бот выдает результат поиска. Ищет он в собственном индексе. В индексе у него лежат сайты в том виде, в каком бот их понимает. У каждого бота это понимание свое, но общие черты прослеживаются.

Индекс образуется двумя путями.

Первый - web-маз сам просит бот проиндексить его сайтец. Так поступают чаще всего с популярными и уважаемыми ботами. Для Рунета это: Яндекс, Рамблер и Апорт. Причем именно в такой последовательности. Хотя Рамблер с Яндексом соперничают в этом плане. На остальные боты можно не тратить время. Это мое мнение.



Второй путь - боты сами в «свободное от работы время» ползают по Инету и вынюхивают изменения. С новыми сайтами они поступают по разному. Чаще всего они принюхиваются к ним какое-то время, а потом, если, по мнению бота, со страницей все в порядке (посетители иногда появляются, спама нет и др.) - они его индексят. То есть заносят информацию о нем в свой индекс (базу данных).
Самый тормозной в плане принюхивания - это Рамблер. Он принюхивается по несколько месяцев. Самый непридирчивый - Яндекс. Можно создать левый сайт и посмотреть, как скоро он самопроизвольно появится в том или ином поисковике. В Яндексе… ну, через месяц-два.

Кроме этого, боты следят за состоянием своего индекса. То есть за его соответствием реальному положению дел в Инете. Сайт может измениться, исчезнуть и т.д. Поэтому боты его обычно реиндексируют. Правда, можно запретить это мета-тегами и цивилизованные боты не будут этого делать.
Самый скоростной по реиндексированию - Яндекс. Скорость реиндекса - несколько дней, а то и чаще, если ресурс популярный. Самый тормозной - Апорт. Скорость реиндекса страниц с посещаемостью 50-100 хостов в сутки - до полугода!
У меня был сайт, который переехал. Так Апорт по запросу старый адрес еще несколько месяцев выдавал, хотя по этому адресу уже несколько месяцев ничего не было! И соответственно, посещаемость - 0. А Апорту все равно!

Дальше.
Результат поиска по запросу пользователя чаще всего выдается по релевантности. Чем выше релевантность, тем выше позиция страницы в результате работы поисковика. Страница с наиболее высокой (по мнению бота) релевантностью отображается первой. Релевантность - это степень соответствия содержимого индекса бота запросу пользователя.
Например, пользователь вводит «анекдоты». Бот выдает страницы проиндексированных сайтов, где встречается это слово. Причем не просто встречается, а встречается в тех местах, которые бот индексит.
Но об этом позже.
Яндекс, например, чаще всего выдает только одну страницу с сайта и ссылки на то, что есть еще страницы с того же сервера. Замечали, наверное. Другие боты могут по несколько страниц с одного сервака на один запрос выдавать. Это не очень образованные боты, но их тоже юзают.

Продолжим с примером про «анекдоты». Бот выдает результат поиска по релевантности. То есть, если на странице имеется 100 слов и 4 из них - «анекдоты» (в именительном падеже, множественном числе), то релевантность страницы по запросу «анекдоты» 0.04. Четыре процента. Соответственно, если слов будет 10, и 4 из них - «анекдоты», то релевантность будет 40 %. То есть в 10 раз выше.
Это грубоватый пример, так как слова в заголовке (то что между ) и в тексте страницы имеют для бота разный вес, равно как слова в падеже и числе, указанном в запросе и имеющемся на странице. Но для понимания понятия «релевантность» вполне сойдет.

Поясню про падежи и числа.
Если запрос «анекдоТЫ», а на странице встречаются только слова «анектоТ, анекдоТОВ» и т.д. то релевантность страницы по этому запросу будет ниже, чем тех страниц, на которых прямо написано слово «анекдоТЫ». Но в любом случае страница все равно найдется по запросу «анекдоТЫ» (но в с конце списка ответа поисковика).

Из сказанного следует, что страница должна содержать поменьше слов, и слова должны быть, в основном, ключевые.

Куда же девать инфу, которая в 10-20 слов никак не поместится?
Ответ - страницы с инфой и страницы для ботов - это «две большие разницы».

Страницы с инфой- это те страницы, на которые попадаешь по ссылке со стартовой страницы. А стартовая страница (другие названия - индексная, заходная, doorway и др.) - это страница которая как раз и содержит 10-20 слов (включая заголовок и мета-теги). То есть эта страница, созданная специально для бота. И больше ни для кого.

Обычно, на стартовой странице размещают лого, иногда еще несколько слов - чтобы пользователь понял, куда попал, и кнопочку «Вход». Иногда вместо кнопочки «вход» - ссылки на разные разделы сайта. То есть несколько входов.
Если без текста на индексной странице, ну, никак не обойтись, можно запихнуть его в картинки. Так Мелкософт (www.microsoft.com) поступает, например. Правда, им-то чего о релевантности заботиться?

Важно, чтобы бот по запросу нашел хоть какую-то страницу на сайте. Важно также, чтобы навигация на ВСЕХ страницах позволяла попасть в КРАТЧАЙШИЙ срок в любое место сайта.
По крайней мере, ссылка на главную страницу, по моему мнению, должна стоять на каждой странице.
Если бот начнет индексить, он надет одну страницу и дальше пойдет по ссылкам на ней. Нужно облегчить ему эту задачу. Причем, чем больше ссылок на ту или иную страницу (с разных страниц, ясен тетя), тем выше ее «ценность» с точки зрения бота.

Итак.
Стартовая страница делается для бота. На ней нет инфы, только ссылка (ссылки) и куча хитростей (см. ниже) для заманивая ботов.
Страницы с инфой должны содержать ссылки друг на друга, нормальный информативный заголовок и приемлемые мета-теги. Все. Их цель - дать инфу и не препятствовать боту запихнуть их в свой индекс. Они не должны первыми появляться по запросу пользователя. Так как в данном случае это как раз те два зайца, за которыми никак не угнаться, да и не надо.

Дальше.
Понятное дело, что есть не одно, а несколько ключевых слов, по которым web-маз хочет, чтобы искался сайт. Чтобы этого добиться, по хорошему, нужно делать столько стартовых страниц, сколько желаемых web-мазом ключевых слов. Внешне эти страницы ничем не должны отличаться. Ну, может, title`ом. Отличаться должна служебная инфа, о которой речь пойдет ниже.

Например, у меня есть сайт для фирмешки, продающей стартеры для иномарок. Я сделала с десяток-два индексных страниц для наиболее популярных моделей иномарок. Внешне страницы отличаются только тем, что на одной в заголовке написано «Стартеры для Мерседеса», а на другой - «Стартеры для Вольво». Все. Конечно, отличаются мета-теги, alt`ы (подписи к картинкам) и т.д. Об этом ниже. Каждую индексную страницу я индексила в ботах отдельно.

Итак.
Что же индексит бот?
У каждого бота свой характер, но в целом примерно так.
Во-первых title. Это самая важная часть. Слова в title`е имеют самый большой вес. Большой вес имеют слова в alt`ах (подписях к картинкам), слова между

,

и т.д. в порядке убывания значимости, слова между .
Кроме того, слова, расположенные ближе (выше) к title`у, имеют больший вес, чем слова расположенные ниже. То есть, чем выше слово, тем выше его вес при определении релевантности.
Полнотекстовые боты (то есть практически все современные) индексят еще и сам текст. В основном, на предмет наличия в тексте слов, указанных в заголовке и метах. Но если текста нет или очень мало - соответственно.

Итого, как заставить бот выдавать твою страницу первой по запросу, например, «варез»?

Пишем:


Лучший варез
 Софт Варез Нелегальный софт


То есть пишем второй title.
После второго title`a нужно поставить знак неразрывного пробела -   или  . Так как Яндекс, например, выдаст оба заголовка как один и без пробела последнее слово первого заголовка сольется с первым словом второго заголовка.
Разумеется, ключевые слова (2-6) можно выдумать и другие.

На той же странице пишем дальше:







В keywords`ах должно быть не более 10-ти слов, необходимо использовать варианты (не более трех) наиболее частых падежей и чисел: (например: программы, программ, программа), чередуя их с другими словами (например: программы, софт, программ, варез, программа).

В description - несколько слов (5-8 слов, не более 170 символов), емко характеризующих сайт. В Апорте и Рамблере это описание появится рядом с результатом поиска по запросу. В настоящее время при индексировании содержимое description на релевантность не влияет. По крайней мере, в рассмативаемых поисковиках.

Главное: МЕНЬШЕ СЛОВ! Преимущественно ключевые.

Name и http-equiv должны полностью совпадать. Одни боты понимают name, другие - http-equiv.

Дальше на той же странице:


# Роботам - индексировать страницу и идти дальше по ссылкам на ней.
# Аналогично сработает:


Дальше:


#Если бот видит, что ресурс - это документ,
# он приступает (должен) к его индексации.

# Если тип документа - динамический - бот запомнит что сюда
# нужно периодически возвращаться.

# Это пожелание боту, как часто реиндексировать документ.
# Пожелание - не более. Бот может послушаться, а может и нет.
# Если, например, он разок вернется через 10 дней и увидит,
# что страница и впрямь изменилась, может и еще разок вернется
# через 10 дней. А если написать revisit-after 1 day и не менять
# страницу вообще - бот может обидеться и посчитать это попыткой
# его спама. Он занесет такую страницу в черный индекс
# (точнее, сначала - в "серый"). Это плохо.


Дальше для Рамблера (только):




То есть в тегах комментария в заголовке первого уровня пишем ключевые слова. Яндекс то, что в тегах комментария не индексит, а Рамблер ест как миленький.

Потом, все картинки, что ни есть, должны содержать alt`ы с ключевыми словами.

Можно даже в неприметном месте страницы однопиксельных прозрачных гифов запихать (не очень много - 3-4) и alt`ы к ним нужные прикрутить. Это считается спамом поисковика (как и два title`а, впрочем), но по опыту - они (боты) этого в упор не видят.

Вообщем, «легальные» способы кончились дальше идут «нелегальные».

Можно сделать для IE:


Программы, варез, софт, программа





Для NN:

Программы, варез, софт, программа




Это не очень удобно. Нужно ставить скриптину, определяющую тип браузера. Но боты глотают эту наживку и в «черный» список не запихивают.

Проще:

Варез программа




Но это боты грозятся определять. Ничего не знаю по этому поводу. Может, и определяют - они сейчас умные пошли.

Еще можно вот что сделать. Где-нибудь неприметненько запихиваем прозрачные gif-чики и делаем из них ссылки. Бот и alt`ы проиндексит и по ссылкам пойдет, особенно, если сами ссылки по дизайну на страницу никак не поместить.

Примерно так:

"Варез,
"Софт,
"варез,
и т.д.


Ну, и нужен специально обученный человек, который будет следить за эволюцией ботов, изменениями позиции страницы в поисковиках и предпринимать сответствующие действия. Не каждый день, но раз в недельку-две тестирование в поисковиках своим страницам нужно устраивать.

И вот еще что! Если релевантность _слишком_ высока, Яндекс обижается и не выдает страницу по запросу. За остальными не замечала. Другие страницы того же сайта с меньшей релевантностью может выдавать («серый» список). Так что, если на странице только слова «варез варез варез» - это не выход. Релевантность должна быть не более 30 %. И одинаковые слова подряд лучше не повторять.

А Батва меня навел на мысль, что можно делать по 2 страницы на одно ключевое слово. На одной странице релевантность по ключевому слову 10 % (для подозрительного Яндекса), на другой - порядка 30 % (для остальных).

И вот когда все это извращение готово - 10-15 стартовых качественно написанных страниц - идешь на http://www.design.ru/free/addurl/ и каждую страницу индексишь одной пимпой в нескольких наиболее популярных поисковиках. При этом видишь ответы серверов, и, если не прошло - идешь индексить вручную.
Об остальных поисковиках спокойно забываешь, толку от них… Работы больше.
Описание к каждой странице - разное, ясен тетя. Емкое, краткое состоящее из ключевых слов.

Можно, и вручную добавлять сайт в каждый поисковик, но это геморройно и не сильно выгодней. Впрочем, это мое мнение.

И последнее.
В корень (только в корень) помещаешь файт robots.txt (именно так и никак иначе) со следующим содержимым:

User-agent: * # Первая строка.
# Комментарии, понятное дело, убрать
# Строка говорит, что любой бот может индексить ресурс
# Между первой и последующими -
# не должно быть переводов строк
Disallow: /cgi-bin/ #Не индексировать то, что в каталоге cgi-bin
Disallow: /images/ #Не индексировать то, что в каталоге images
Disallow: /scripts/ #Не индексировать то, что в каталоге scripts
# И далее по смыслу. В конце каждого имени каталога - слеш.
# Нече там ботам ползать. Нагрузку на сервак повышать. smile.gif

Вот, собственно. Хотя, можно еще много фантазировать на тему.
PMEmail Poster
Top
SeoSEA
Отправлено: Dec 1 2008, 10:26 PM
Quote Post


  Лейтенант
*

Группа: Members
Сообщений: 62
Пользователь №: 2070
Регистрация:
26-November 08



Спасибо Лена, за полезную информацию =)


--------------------
PMEmail Poster
Top
gotis
Отправлено: Dec 13 2008, 01:42 AM
Quote Post


  Солдат
*

Группа: unior
Сообщений: 3
Пользователь №: 2114
Регистрация:
13-December 08



Замеч.статья. Осмелюсь добавить к посту уважаемой, что вместо способа "делать текст картинкой", чтобы удельный вес "по ключевым" был больше, есть еще замечательный тег noindex, который почти всеми ботами корректно обрабатывается(ИМХО, ессно, насколько мне известно). Заключайте "ненужный" текст в этот тэг...И будет вам щщастье.
PMEmail Poster
Top
-=Angel3=-
Отправлено: Dec 13 2008, 01:14 PM
Quote Post


  Генерал
*

Группа: Members
Сообщений: 183
Пользователь №: 1406
Регистрация:
16-February 08



Очень полезная инфа... Спасибо большое...
Что самое классное - тут разжевано все так, что даже новичку не проблема будет разобраться.


--------------------
Интернет-магазин по продаже комьютерной техники : Ф-Арт

И две тысячи лет война,
Война без особых причин,
Война -дело молодых,
Лекарство против морщин...
PMEmail PosterUsers WebsiteICQ
Top
Sokol
Отправлено: Mar 2 2011, 09:46 PM
Quote Post


  Солдат
*

Группа: unior
Сообщений: 2
Пользователь №: 3757
Регистрация:
2-March 11



Лена А для PPC (PAy Paver Click) какой совет даш Штобы примеру порту бистро индексрвалис?? Если можиш помаги!
PMEmail Poster
Top
Sokol
Отправлено: Mar 2 2011, 09:47 PM
Quote Post


  Солдат
*

Группа: unior
Сообщений: 2
Пользователь №: 3757
Регистрация:
2-March 11



Порту- Посты
PMEmail Poster
Top
DarlaXXL
Отправлено: Mar 3 2011, 10:13 AM
Quote Post


  Майор
*

Группа: Members
Сообщений: 107
Пользователь №: 3598
Регистрация:
12-November 10



че-то не вижу кодов... просто пустые абзацы.
PMEmail Poster
Top
Asid Storm
Отправлено: Mar 3 2011, 03:24 PM
Quote Post


  Команда ЭйсВэб
*

Группа: Super moderator
Сообщений: 895
Пользователь №: 39
Регистрация:
27-August 06



К сожалению коды стёрлись, при переносе форума на новый движок, некоторые были восстановлены. Коды из данного сообщения так же отсутствуют в старой базе.
PMEmail PosterUsers WebsiteICQ
Top
dudeonthehorse
Отправлено: Mar 3 2011, 04:30 PM
Quote Post


  Команда ЭйсВэб
*

Группа: Super moderator
Сообщений: 763
Пользователь №: 2933
Регистрация:
26-October 09



так может тему - того...?
PMEmail PosterICQ
Top
meta-trader
Отправлено: Mar 6 2011, 03:16 PM
Quote Post


  Команда ЭйсВэб
*

Группа: Super moderator
Сообщений: 1120
Пользователь №: 1194
Регистрация:
11-October 07



Пусть живёт wink.gif


--------------------
Нужен форум для сайта? Создать свой форум
Нравятся ролевые игры? Создать форум для ролевой игры - создай ролевую и наслаждайся игрой!
Международный сервис фришных форумов - создать форум бесплатно.
PMEmail PosterUsers WebsiteICQ
Top

Topic OptionsСтраницы: (2) [1] 2  Reply to this topicStart new topicStart Poll

 



[ Script Execution time: 0.0224 ]   [ 10 queries used ]   [ GZIP выключен ]