Современные информационные технологии/3. Программное обеспечение

К.т.н. Блеканов И.С., к.ф.-м.н. Сергеев С.Л., Максимов А.Ю.

Санкт-Петербургский государственный университет, Россия

Веб-краулер как инструмент для вебометрических исследований на примере анализа Веб-пространства СПбГУ

Введение. За последние несколько лет в области информационного Веб-поиска все чаще появляются задачи, связанные с развивающимся научным направлением вебометрика (webometrics) [1–4]. К актуальным направлениям вебометрических исследований относятся задачи анализа и выявления гиперссылочных структур различных сегментов Веб-пространства (например, академический сегмент Веба, университетский, и др.), решение которых влияет на качество присутствия этих сегментов в Вебе, на результаты ранжирования поисковых машин (Google, Yandex и др.) или, в случае университетского Веба, на вебометрический рейтинг (http://www.webometrics.info) различных университетов мира [4].

Для получения и обработки больших объемов информации о веб-сайтах и их гиперссылках используются Веб-краулеры (поисковые роботы), общей задачей которых является специализированный обход Веба с целью сбора информации или определения гиперссылочной структуры и полезности каких-либо информационных ресурсов.

Эксперимент. В эксперименте ставилась задача анализа и выявления гиперссылочной структуры Веб-пространства Санкт-Петербургского государственного университета (СПбГУ).

Для эксперимента использовался программный комплекс обобщенного ядра поискового робота, который обладает высокой гибкостью и масштабируемостью в сравнении с зарубежными аналогами, сильно уступающими в производительности собора и обработки веб-ресурсов  и имеющими слабую приспособленность к анализу российского сегмента Веба [5].

К Веб-краулеру с обобщенным ядром дополнительно был разработан и добавлен специализированный алгоритм обхода веб-страниц, который собирает и обрабатывает только страницы из Веб-пространства СПбГУ. В свою очередь пространство СПбГУ состоит из веб-сайта главного домена и сайтов всех его поддоменов (Рис. 1).

Рис. 1. Веб-пространство СПбГУ

Используя программный комплекс на основе обобщенного ядра поискового робота со специализированным алгоритмом, запущенного с начального множества веб-страниц, требовалось в автоматизированном режиме получить значения следующих показателей, характеризующих гиперссылочную структуру Веб-пространства СПбГУ:

-         объем Веб-пространства СПбГУ (количество всех различных веб-страниц из Веб-пространства СПбГУ);

-         количество всех поддоменов из Веб-пространства СПбГУ;

-         количество тупиковых (не имеющих ссылок) веб-страниц;

-         количество неработающих гиперссылок;

-         количество гиперссылок на внешние веб-ресурсы;

-         количество поддоменов, связанных с «Главной страницей» главного домена;

-         количество поддоменов, несвязанных с «Главной страницей» главного домена;

-         количество страниц, имеющие гиперссылки на «Главную страницу» главного домена;

-         количество страниц, не имеющие гиперссылки на «Главную страницу» главного домена;

-         гиперссылочная структура Веб-пространства СПбГУ в виде матрицы смежности.

В качестве начального множества веб-страниц, с которого Веб-краулер запускал процесс сбора и обработки веб-ресурсов, брался URL-адрес главного веб-сайта СПбГУ – «http://www.spbu.ru/».

Результаты эксперимента. В ходе эксперимента всего Веб-краулером было обработано и проанализировано 6 429 963 гиперссылки, которые содержались на страницах Веб-пространства СПбГУ. Из них: объем ссылок на внешние источники информации равен 507 168, а объем внутренних ссылок (на страницы главного домена сайта СПбГУ и его поддоменов) – 5 922 795. Кроме того были получены следующие результаты (Табл. 1):

Таблица 1

Показатель

Значение показателя

объем Веб-пространства СПбГУ

71688

количество всех поддоменов из Веб-пространства СПбГУ

315

количество поддоменов, сильно-связанных с «Главной страницей» главного домена

280

количество поддоменов, несвязанных с «Главной страницей» главного домена

35

количество тупиковых веб-страниц

12516

количество неработающих гиперссылок

680

количество страниц, имеющие гиперссылки на «Главную страницу» главного домена

10632

количество страниц, не имеющие гиперссылки на «Главную страницу» главного домена

61056

 

Также стоит отметить, что для простоты исследований и получения численных значений показателей было предложено хранить выявленную гиперссылочную структуру Веб-пространства СПбГУ в виде матрицы смежности A размерностью [71688×71688]. С помощью нее и ее транспонированной формы удобно определять связанность между страницами и в дальнейшем оптимизировать структуру ссылок.

Общие выводы. По результатам эксперимента видно, что 17,5% веб-страниц из всех страниц Веб-пространства СПбГУ занимают тупиковые страницы, которые, например, не учитывает поисковая машина Google в своем алгоритме ранжирования PageRank, что негативно влияет на коммуникабельность всего Веб-пространство университета в целом.

Также из эксперимента наблюдается плохая связанность страниц Веб-пространства СПбГУ и его поддоменов со страницами главного сайта университета: только 14,8% всех веб-страниц имеет ссылки на страницы главного сайта, а 35 доменов со всеми своими страницами и вовсе никак не связаны с ним.

Стоит отметить и большое количество неработающих гиперссылок (680 уникальных гиперссылок), которые неоднократно повторяются по всему Веб-пространству СПбГУ, тем самым снижают доверие пользователей к ресурсам сайтов университета.

Таким образом, проведенный эксперимент демонстрирует слабую связанность и коммуникабельность внутренних ресурсов Веб-пространства СПбГУ, что влечет и его слабую позицию в вебометрическом рейтинге сайтов университетов мира.

 

Литература:

1.     Holmberg, K. & Thelwall, M. Local government web sites in Finland: A geographic and webometric analysis // Scientometrics, – 79(1). – 2009. – P. 157-169.

2.     Печников А. А. Вебометрические исследования Web-сайтов университетов России // Информационные технологии. – 2008. – №11. – С. 74-78.

3.     Печников А. А., Чирков А. В., Чуйко Ю. В. Исследование связности научно-образовательного Веба // Учёные записки Петрозаводского государственного университета. Естественные и технические науки. – №8(121). – 2011. – С. 111-113.

4.     Блеканов И.С., Сергеев С.Л., Печников А.А. Повышение рейтингов университетов методами вебометрики // Труды XIX Всероссийской научно-методической конференции Телематика'2012. – СПГУ ИТМО. – СПб. – 2012. – Том 2. – С. 250-251.

5.     Блеканов И.С., Сергеев С.Л., Мартыненко И.А. Построение тематико-ориентированных веб-краулеров с использованием обобщенного ядра // Научно-технические ведомости СПбГПУ. – Издательство Санкт-Петербургского Государственного Политехнического Университета. – 2012. – № 5(157). – С. 9-15.