Littleone 2009-2012 - Показать сообщение отдельно - Есть вопросы по созданию и продвижению сайтов - ВАМ СЮДА!
Показать сообщение отдельно
Старый 28.02.2012, 14:09   #86
Сладкий Б. Перец
с Луны
 
Аватар для Сладкий Б. Перец
 
Регистрация: 24.08.2005
Адрес: Рыбацкое --> qodʇɔo ıdɯǝɐʇuqoǝɥ
Сообщений: 34 720


Вы задумайтесь на секунду, как работает робот (сканнер) и потом лексический анализатор и потом индексация.

Это, как минимум, три этапа.

1. Сканнер читает 100% всё.
2. Лексическия анализатор разбирает на лексемы тоже 100% всё.
3. Индексация в силу своего приниципа не может работать только на первых 20 кб или там скольки-то ещё. Она опять же проходит по всему тексту. Другое дело, что значимость "хвоста" можно сильно понизить введением соответствующих весов (это в самом примитивном варианте, конечно). Этот подход использовался лет 10-12 лет назад. Сейчас всё гораздо сложнее, ибо учитывается и цвет фона и шрифта и его размер и расположение относительно картинок и ссылок и т.п.

Я подробно с работой Яндекса не знаком, поэтому не буду ничего утверждать, но вот например Гугл работает по принципу Марковских цепей и Page Rank (что есть, по сути, более развитый подход случайного блуждания) и они как раз вычитывают все данные со страницы, после чего вычленяются наиболее существенные и важные куски (как это бы воспринял человек).

PS: и не надо юродствовать, пожалуйста, это очень некрасиво.
Сладкий Б. Перец is offline   Цитировать ·