Littleone 2009-2012 - Показать сообщение отдельно - Есть вопросы по созданию и продвижению сайтов

Сладкий Б. Перец · 28.02.2012, 14:09

Вы задумайтесь на секунду, как работает робот (сканнер) и потом лексический анализатор и потом индексация.

Это, как минимум, три этапа.

1. Сканнер читает 100% всё.
2. Лексическия анализатор разбирает на лексемы тоже 100% всё.
3. Индексация в силу своего приниципа не может работать только на первых 20 кб или там скольки-то ещё. Она опять же проходит по всему тексту. Другое дело, что значимость "хвоста" можно сильно понизить введением соответствующих весов (это в самом примитивном варианте, конечно). Этот подход использовался лет 10-12 лет назад. Сейчас всё гораздо сложнее, ибо учитывается и цвет фона и шрифта и его размер и расположение относительно картинок и ссылок и т.п.

Я подробно с работой Яндекса не знаком, поэтому не буду ничего утверждать, но вот например Гугл работает по принципу Марковских цепей и Page Rank (что есть, по сути, более развитый подход случайного блуждания) и они как раз вычитывают все данные со страницы, после чего вычленяются наиболее существенные и важные куски (как это бы воспринял человек).

PS: и не надо юродствовать, пожалуйста, это очень некрасиво.

28.02.2012, 14:09	ответ для Бига , на сообщение « Есть вопросы по созданию и продвижению... » #86
Сладкий Б. Перец с Луны Регистрация: 24.08.2005 Адрес: Рыбацкое --> qodʇɔo ıdɯǝɐʇuqoǝɥ Сообщений: 34 720	Вы задумайтесь на секунду, как работает робот (сканнер) и потом лексический анализатор и потом индексация. Это, как минимум, три этапа. 1. Сканнер читает 100% всё. 2. Лексическия анализатор разбирает на лексемы тоже 100% всё. 3. Индексация в силу своего приниципа не может работать только на первых 20 кб или там скольки-то ещё. Она опять же проходит по всему тексту. Другое дело, что значимость "хвоста" можно сильно понизить введением соответствующих весов (это в самом примитивном варианте, конечно). Этот подход использовался лет 10-12 лет назад. Сейчас всё гораздо сложнее, ибо учитывается и цвет фона и шрифта и его размер и расположение относительно картинок и ссылок и т.п. Я подробно с работой Яндекса не знаком, поэтому не буду ничего утверждать, но вот например Гугл работает по принципу Марковских цепей и Page Rank (что есть, по сути, более развитый подход случайного блуждания) и они как раз вычитывают все данные со страницы, после чего вычленяются наиболее существенные и важные куски (как это бы воспринял человек). PS: и не надо юродствовать, пожалуйста, это очень некрасиво.
	Цитировать ·