Вы задумайтесь на секунду, как работает робот (сканнер) и потом лексический анализатор и потом индексация.
Это, как минимум, три этапа.
1. Сканнер читает 100% всё.
2. Лексическия анализатор разбирает на лексемы тоже 100% всё.
3. Индексация в силу своего приниципа не может работать только на первых 20 кб или там скольки-то ещё. Она опять же проходит по всему тексту. Другое дело, что значимость "хвоста" можно сильно понизить введением соответствующих весов (это в самом примитивном варианте, конечно). Этот подход использовался лет 10-12 лет назад. Сейчас всё гораздо сложнее, ибо учитывается и цвет фона и шрифта и его размер и расположение относительно картинок и ссылок и т.п.
Я подробно с работой Яндекса не знаком, поэтому не буду ничего утверждать, но вот например Гугл работает по принципу Марковских цепей и Page Rank (что есть, по сути, более развитый подход случайного блуждания) и они как раз вычитывают все данные со страницы, после чего вычленяются наиболее существенные и важные куски (как это бы воспринял человек).
PS: и не надо юродствовать, пожалуйста, это очень некрасиво.
|