Юрченко Т

Юрченко Т.С.

Гуманитарный колледж им. М. Жумабаева

г. Петропавловск, Казахстан

Информационно-поисковые системы:

достоинства и недостатки

В настоящее время глобальные сети включают в себя большой объем динамически изменяющейся информации и развиваются весьма бурными темпами. Для того чтобы как-то упорядочить этот непрерывный поток данных и дать возможность пользователям сети INTERNET находить нужную информацию, были созданы специальные информационно-поисковые системы (ИПС). Развитие данных систем идет по пути автоматизации информационного поиска, и главным критерием при этом является увеличение релевантности найденной информации.

Сегодня существует десятки поисковых систем (ПС), каждая из которых имеет свои достоинства и недостатки. Пользователи имеют возможность выбрать для поиска одну из систем, опираясь в основном на качество предоставленного сервиса – количество ответов по запросу, скорость работы поисковой системы.

Главная задача ПС - сохранение приемлемых для пользователей скорости и полноты выполнения запросов. Для запроса средней "тяжести", то есть при поиске не очень частотного слова, время отклика системы должно исчисляться десятыми долями секунды.

Опираясь на рейтинг глобальных ПС (по данным NielsenNetRatings), можно сделать вывод, что на постсоветском пространстве популярными считаются системы: http://www.yandex.ru/ - 45,7% http://www.google.com/ - 26%.

Google появился в 1998 г. Его создатели, сотрудники Стенфордского университета (США) С. Брин и Л. Пейдж, постарались сделать его механизм более гибким и расширяемым, чем существовавшие на то время у грандов поиска - Аltavista и Inktomi. На данный момент Google имеет самый большой объем проиндексированных страниц - более двух миллиардов. Речь идет не только о собственно html- и xml-документах, но и pdf, doc и даже флэш-анимации. Причем только Google, в отличие от других не российских ИПС, хорошо индексирует русскоязычные Web-ресурсы в зоне ru и казахскоязычные в зоне kz.

Всю основную работу в ПС Google по просеиванию сквозь себя содержимого сети выполняют Интернет-роботы (боты, crawlers). Каждый из них берет один адрес (URL, uniformresourcelocator; каждый URL соответствует определенному идентификатору документа) из базы данных URL-сервера, скачивает и передает содержимое странички на сервер хранения документов.

В поисковой системе "Яндекс" распределение нагрузки между фронтальными веб-серверами выполняют Cisco - сетевые устройства балансировки нагрузки www.cisco.com. Каждый пользователь в зависимости от своего IP-адреса (и/или cookies) перенаправляется на наименее загруженный веб-сервер из 10, используемых в поиске Яндекса. Функционально фронтальные веб-серверы совмещены с модулями слияния поисковых результатов от веба и остальных поисковых источников.

Структура прямого индекса не очень удобна при поиске документов на основании встречающихся в них слов. Чтобы решить эту проблему, был введен так называемый инверсный, или обратный, индекс (рис. 1). В нем любому слову из словаря соответствует набор doc_id-документов, в которых это слово встречается. Работой по постоянному формированию инверсного индекса занимаются сортировщики. Так как, во-первых, всегда появляются новые документы и, во-вторых, обновляются старые, индекс приходится постоянно перестраивать.

Рис. 1. Структура инверсного индекса (word_id - идентификатор слова; ndocs - количество документов с этим словом; doc_id - идентификатор документа; n_hits - частота, с которой слово встречается в документе)

Пусть от пользователя поступил запрос найти документы со словом <мухобойка>. Программа, формирующая ответы, посмотрит в словарь, найдет там word_id для <мухобойки>, сформирует запрос в базу данных с использованием инверсного индекса и получит набор документов, в которых это слово встречается. Далее на основании PageRank, количества хитов, их качества и, может быть, других ограничений и приоритетов разработчиков будут распределены порядковые номера страниц в выходном списке. В итоге Интернет-пользователь получит самую оптимальную, по мнению ИПС, информацию о том, где и что писали о правилах и способах мухоубийства.

Качество ПС зависит и от частоты проверки Интернет-роботом содержимого ранее обработанных сайтов. В таблице на примере thermo.karelia.ru приведены данные об общем объеме запрошенных роботами документов и количестве заходов на сайт (по данным Webalizer - анализатора журналов Web-сервера).

Роботы <Яндекса> и Google ведут себя по-разному. <Яндекс> останавливается на корневом документе Web-сервера (например, index.html) и скачивает содержимое сайта последовательно, документ за документом, в один поток. Google распараллеливает работу между несколькими роботами, причем каждый из них при скачивании может <отвлекаться> на другие дела. То есть эти две поисковые системы характеризуются совершенно различными структурами URL-серверов и способами пополнения информации из Интернета.

ПС сегодня много и выбрать лучшую практически невозможно, т.к. архитектуры ПС имеют значительные отличия. Для достижения задач, поставленных перед ПС, разработчики ведут постоянную работу по оптимизации поисковых алгоритмов и архитектуры поиска - это предмет постоянного внимания разработчиков.