Оптимизация сайта для поисковой машины Рамблер
Оптимизация сайта для поисковой машины Рамблер.
Как мы уже говорили, Интернет постоянно развивается, растет и число пользователей, которые ищут нужную информацию с помощью поисковых систем. Все увеличивающийся объем информации и поисковых запросов, предъявляет более и более высокие требования к качеству и скорости поиска.
Каждому пользователю хочется получить как можно более качественный результат. А значит основной задачей поисковой системы является быстро и качественно обработать, обновить и отсортировать найденную информацию.
Для пользователя очень важно, чтобы результаты поиска были представлены максимально удобно, важно получить искомый результат, не затрачивая времени на написание подробного запроса, важно получить нужный материал без лишнего мусора. Для этого разработчики поисковиков постоянно улучшают поисковые алгоритмы, постоянно стремятся совершенствовать принципы поиска, ускоряют работу системы и добавляют новые полезные функции.
Рассмотрим принципы работы поискового движка Рамблер. И на этом примере продемонстрируем как разработчиками достигается увеличение скорости и повышение качества работы системы несмотря на постоянный рост количества информации. Одной из важнейших характеристик поисковой системы является полнота. Полнотой называют отношение числа найденных по какому-либо запросу документов к общему числу документов в сети, релевантных данному запросу.
Приведем пример – если в Интернете имеется 100 страниц со словами «пластиковые окна», а по запросу нашлось всего лишь 70, то после нехитрых вычислений получим полноту поиска равной 0,7. Вывод: если какой-то документ существует в сети Интернет, то чем полнее поиск, тем выше вероятность этот документ отыскать.
Для того, чтобы не перегружать систему преувеличении количества страниц, предназначенных для индексации, поисковые роботы работают параллельно, то есть делят список адресов страниц на равные части и распределяют между собой. Информация о всех страницах, скачанных роботом из Интернета, сохраняется в базе данных.
Программа индексатор (indexer) разбивает страницу на кусочки и анализирует представленную на ней информацию. Если попадается две страницы с одинаковым URL, то выбирается более новая версия. Если при скачивании страницы возникла ошибка 404 (страница не найдена), то адрес этой страницы временно удаляется из базы данных. Страницы, имеющие одинаковое содержимое и одинаковый адрес, «склеиваются» между собой, а страницы с идентичным текстом, но разным URL превращаются в один документ.
Еще одна важнейшая характеристика системы поиска – точность. Точность – это степень соответствия результата поиска к созданному запросу. Создадим запрос «Красная площадь». Например, в результате поисковая машина выдаст нам 150 документов. Но в 70 документах это словосочетание содержится в неизменном вида, а в остальных просто встречаются эти слова «красная» и «площадь» ( «красная машина въехала на площадь» ).
Рассчитаем точность поиска: 70:150=0,46 (~0,5). Выходит, чем выше точность поиска, тем меньше «мусора» в его результатах. Для повышения точности поиска в поисковой системе Рамблера используются различные технологии. Об одной из них, системе распознавания омонимов, вы сейчас узнаете. Для начала, наверное, стоит напомнить, что такое омоним. Омонимы – это одинаковые по написанию, но разные по значению слова. Омонимы бывают лексические и грамматические. Лексические омонимы принадлежат одной части речи. Например, существительное «лук» – это и орудие для метания стрел и овощная культура.
Грамматические омонимы принадлежат к различным частям речи. Обычно в написании у них совпадают лишь отдельные формы. Примеры грамматических омонимов: слово «рядовой» может выступать в роли прилагательного в словосочетании «рядовой сотрудник» и может быть существительным – «рядовой Петров». Омонимы ухудшают результаты поиска и значительно увеличивают размер индексной базы, ведь для каждого омонима приходится сохранять все его возможные значения.
Для повышения точности результатов поиска модуль синтаксического анализа разбирает и окружающие омонимы слова с целью определения наиболее вероятного их значения. Если рядом со словом «печь» находятся слова «пироги» или «хлеб», то вероятнее всего слово «печь» в данном случае является глаголом. На данный момент модуль синтаксического анализа способен распознавать только грамматические омонимы.