Современные информационные технологии/3

Современные информационные технологии/3. Программное обеспечение

К.ф.-м.н. Сергеев С.Л., к.т.н. Блеканов И.С.

Санкт-Петербургский государственный университет, Россия

Разработка инструментария для сравнительного исследования университетских сайтов

В процессы глобализации, характерные для нашего времени, включены и университеты. Болонский процесс – один из примеров этого. Значительную роль начинают играть обмены студентами, аспирантами, преподавателями. Все больше иностранных студентов обучается в университетах. Растет научное сотрудничество университетов, как между собой, так и с научными учреждениями. Наша страна, по известным причинам, позже многих других включилась в процессы интеграции, но необходимость этого понимается всеми. Однако, одного желания мало. Мало даже высоких достижений в науке и образовании. Необходимо признание. Для оценки степени признания университетов выработан ряд комплексных критериев. Наиболее известные из них – Times, QS, шанхайский. Все больший вес набирает критерий Webometrics. Это частный критерий, оценивающий лишь качество сайта университета, но качество сайта оказывает большое влияние на «видимость» университета. Ведь по публикациям ученых видны только они, но не виден университет.

Рейтинги сайтов российских университетов невелики. Рейтинг сайта МГУ – 177, сайта СПбГУ – 495 [1]. Рейтинг сайта, как и любая репутация, формируется из двух составляющих – содержательной и формальной. Содержательная, в нашем случае, это объем и качество контента. Формальная составляющая, в свою очередь, состоит из двух компонент – внешней и внутренней. Внешняя – это количество ссылок на сайт с авторитетных сайтов, внутренняя – дизайн и ссылочная структура сайта.

Для повышения рейтинга сайта необходимо работать во всех направлениях. Исследованиям в этой области посвящены работы [2–5]. Мы же решили сосредоточиться на вопросах внутренней гиперссылочной структуры. Правильно организованная веб-структура может значительно увеличить привлекательность сайта и повысить его место в поисковых системах, увеличить количество внешних ссылок. Цель нашей работы – анализ гиперссылочной структуры сайтов университетов, занимающих верхние строчки в рейтинге Webometrics, сравнение с ними структуры сайтов ведущих российских университетов и выработка рекомендаций по приближению структуры сайта наших университетов к структуре сайтов ведущих университетов.

Для достижения этой цели необходим поисковый робот – веб-краулер. Анализ положения в этой области показал, что открытые реализации зарубежных веб-краулеров (Heritrix, Open, WebSpider и др.) слабо приспособлены к российскому сегменту Веба, имеющиеся отечественные реализации требуют весьма трудоемкой настройки под нашу задачу, а после нее показывают низкую производительность и существенно нагружают информационный источник и каналы связи в Веб-пространстве [6].

Кроме того, большинство систем, обеспечивая возможность многопоточной загрузки Веб-страниц, не допускает масштабирования процесса сбора Веб-страниц на программно-аппаратном уровне; выполняя минимизацию нагрузки на информационные Веб-ресурсы, не обеспечивает минимизацию нагрузки на каналы связи. Все они не обладают достаточной гибкостью архитектуры, практически, исключая возможность добавлять новые модули, алгоритмы обхода сети Веб.

Нами планируется значительная работа по обследованию ряда университетских сайтов. Кроме того, предполагается, в дальнейшем, выполнить исследование сайтов различных организаций с целью обобщения гиперссылочной структуры успешных сайтов, что требует наличия специализированного исследовательского веб-краулера, способного настраиваться на работу с сайтами различного вида.

Это побудило нас разработать Веб-краулер с обобщенным ядром, способного легко настраиваться на сайты различной тематики, в частности сайты университетов, как российских, так и зарубежных.

Основные модули веб-краулера.

1. Многопоточный загрузчик Веб-страниц. Является загрузчиком Веб-страниц с сервера, на котором они расположены в Веб-пространстве. Он также выполняет функции менеджера безопасности, контролируя количество потоков, выделяемое для загрузки всех информационных источников в рамках одной итерации, и исключая обработку Веб-ресурсов, время отклика которых превышает заданное. Все параметры менеджера загрузок настраиваемые.

2. Модуль извлечения гиперссылок. Его задача - отыскание дочерних элементов из заданного набора Веб-страниц. Для этого модуль извлекает все гиперссылки, из начального множества веб-страниц, и добавляет их в очередь гиперссылок. Процесс обработки элементов очереди выполняется с помощью набора параллельных и синхронизированных между собой потоков.

3. Модуль нормализации гиперссылок. Основная задача модуля заключается в приведении адреса каждого Веб-ресурса к стандартизированному и отсеивании Веб-страниц с дублированными или некорректными и адресами.

4. Модуль кэширования. Для повышения производительности краулера была разработана система кэширования, предназначенная для хранения извлеченного контента для возможности его повторного использования. При превышении порога выделенной памяти система освобождает память путем удаления из кэша контента Веб-страниц, которые реже всего используются.

5. Коллекция найденных документов. Данный модуль хранит информацию обо всех веб-ресурсах и их гиперссылочных структурах, полученных Веб-краулером на каждой итерации краулер-процесса, и предоставляет ее пользователю для дальнейших вебометрических исследований.

Как выяснилось в ходе экспериментов, наиболее распространенные веб-краулеры имеют некоторую специализацию.

Так, Heritrix (http://crawler.archive.org), имеет хорошую производительность при обработке большого количества Веб-страниц; Methanol Web Crawler (http://metha-sys.org) – при обработке малого количества Веб-страниц; WebSpider (http://www.openwebspider.org) – среднего.

Веб-краулер с обобщенным ядром позволяет подключать дополнительные модули Module_BDD, Module_MDD и Module_SDD ориентированные на загрузку большого, среднего и малого количества Веб-страниц, соответственно. Это позволяет добиться максимальной производительности при работе с сайтами любых размеров.

С использованием Веб-краулера с обобщенным ядром планируется, в первую очередь, провести вебометрические исследования веб-сайтов ВУЗов из первой тройки мирового вебометрического рейтинга (Гарвардский университет, Массачусетский технологический институт и Стэнфордский университет) и первой тройки этого рейтинга по России (Московский государственный университет, Санкт-Петербургский государственный университет и Томский государственный университет). А также сравнить показатели, характеризующие гиперссылочные структуры их Веб-пространств, и влияние этих показателей на рейтинг.

Литература:

1. Ranking Web of World Universities. http://www.webometrics.info (дата обращения 10.01.2013).

2. Печников А. А. Вебометрические исследования Web-сайтов университетов России // Информационные технологии. – 2008. – №11. – С. 74-78.

3. Печников А.А. Модель университетского Веба // Вестник Нижегородского университета им. Н.И. Лобачевского. №6. 2010. С. 208-214.

4. Печников А. А., Чирков А. В., Чуйко Ю. В. Исследование связности научно-образовательного Веба // Учёные записки Петрозаводского государственного университета. Естественные и технические науки. – №8(121). – 2011. – С. 111-113.

5. Блеканов И.С., Сергеев С.Л., Печников А.А. Повышение рейтингов университетов методами вебометрики // Труды XIX Всероссийской научно-методической конференции Телематика'2012. – СПГУ ИТМО. – СПб. – 2012. – Том 2. – С. 250-251.

6. Блеканов И.С., Сергеев С.Л., Мартыненко И.А. Построение тематико-ориентированных веб-краулеров с использованием обобщенного ядра // Научно-технические ведомости СПбГПУ. – Издательство Санкт-Петербургского Государственного Политехнического Университета. – 2012. – № 5(157). – С. 9-15.