Современные
информационные технологии/3. Программное обеспечение
К.т.н. Блеканов И.С.,
к.ф.-м.н. Сергеев С.Л., Максимов А.Ю.
Санкт-Петербургский
государственный университет, Россия
Веб-краулер как инструмент для
вебометрических исследований на примере анализа Веб-пространства СПбГУ
Введение. За последние несколько лет в области информационного Веб-поиска все чаще появляются
задачи, связанные с развивающимся научным направлением вебометрика (webometrics) [1–4]. К актуальным направлениям
вебометрических исследований относятся задачи анализа и выявления
гиперссылочных структур различных сегментов Веб-пространства (например,
академический сегмент Веба, университетский, и др.), решение которых влияет на
качество присутствия этих сегментов в Вебе, на результаты ранжирования
поисковых машин (Google, Yandex и др.) или, в случае университетского
Веба, на вебометрический рейтинг (http://www.webometrics.info) различных
университетов мира [4].
Для получения и обработки больших объемов
информации о веб-сайтах и их гиперссылках используются Веб-краулеры (поисковые
роботы), общей задачей которых является специализированный обход Веба с целью
сбора информации или определения гиперссылочной структуры и полезности
каких-либо информационных ресурсов.
Эксперимент. В эксперименте ставилась задача анализа и выявления гиперссылочной
структуры Веб-пространства Санкт-Петербургского государственного университета
(СПбГУ).
Для эксперимента использовался программный
комплекс обобщенного ядра поискового робота, который обладает высокой гибкостью
и масштабируемостью в сравнении с зарубежными аналогами, сильно уступающими в
производительности собора
и обработки веб-ресурсов и имеющими слабую
приспособленность к анализу российского сегмента Веба [5].
К Веб-краулеру с обобщенным ядром
дополнительно был разработан и добавлен специализированный алгоритм обхода
веб-страниц, который собирает и обрабатывает только страницы из
Веб-пространства СПбГУ. В свою очередь пространство СПбГУ состоит из веб-сайта
главного домена и сайтов всех его поддоменов (Рис. 1).

Рис. 1. Веб-пространство СПбГУ
Используя программный комплекс на основе
обобщенного ядра поискового робота со специализированным алгоритмом,
запущенного с начального множества веб-страниц, требовалось в
автоматизированном режиме получить значения следующих показателей, характеризующих
гиперссылочную структуру Веб-пространства СПбГУ:
-
объем Веб-пространства СПбГУ (количество всех различных веб-страниц из
Веб-пространства СПбГУ);
-
количество всех поддоменов из Веб-пространства СПбГУ;
-
количество тупиковых (не имеющих ссылок) веб-страниц;
-
количество неработающих гиперссылок;
-
количество гиперссылок на внешние веб-ресурсы;
-
количество поддоменов, связанных с «Главной страницей» главного домена;
-
количество поддоменов, несвязанных с «Главной страницей» главного домена;
-
количество страниц, имеющие гиперссылки на «Главную страницу» главного
домена;
-
количество страниц, не имеющие гиперссылки на «Главную страницу» главного
домена;
-
гиперссылочная структура Веб-пространства СПбГУ в виде матрицы смежности.
В качестве начального множества
веб-страниц, с которого Веб-краулер запускал процесс сбора и обработки
веб-ресурсов, брался URL-адрес главного
веб-сайта СПбГУ – «http://www.spbu.ru/».
Результаты эксперимента. В ходе эксперимента всего Веб-краулером
было обработано и проанализировано 6 429 963
гиперссылки, которые содержались на страницах Веб-пространства СПбГУ. Из
них: объем ссылок на внешние источники информации равен 507 168, а объем внутренних ссылок (на страницы главного домена
сайта СПбГУ и его поддоменов) – 5 922 795.
Кроме того были получены следующие результаты (Табл. 1):
Таблица 1
|
Показатель |
Значение показателя |
|
объем Веб-пространства
СПбГУ |
71688 |
|
количество всех
поддоменов из Веб-пространства СПбГУ |
315 |
|
количество поддоменов,
сильно-связанных с «Главной страницей» главного домена |
280 |
|
количество поддоменов,
несвязанных с «Главной страницей» главного домена |
35 |
|
количество тупиковых
веб-страниц |
12516 |
|
количество
неработающих гиперссылок |
680 |
|
количество страниц,
имеющие гиперссылки на «Главную страницу» главного домена |
10632 |
|
количество страниц, не
имеющие гиперссылки на «Главную страницу» главного домена |
61056 |
Также стоит отметить, что для простоты
исследований и получения численных значений показателей было предложено хранить
выявленную гиперссылочную структуру Веб-пространства СПбГУ в виде матрицы
смежности A размерностью [71688×71688]. С помощью нее и ее транспонированной
формы удобно определять связанность между страницами и в дальнейшем
оптимизировать структуру ссылок.
Общие выводы. По результатам эксперимента видно, что 17,5%
веб-страниц из всех страниц Веб-пространства СПбГУ занимают тупиковые страницы,
которые, например, не учитывает поисковая машина Google в своем алгоритме ранжирования PageRank, что негативно влияет
на коммуникабельность всего Веб-пространство университета в целом.
Также из эксперимента наблюдается плохая
связанность страниц Веб-пространства СПбГУ и его поддоменов со страницами
главного сайта университета: только 14,8%
всех веб-страниц имеет ссылки на страницы главного сайта, а 35 доменов со всеми своими страницами и
вовсе никак не связаны с ним.
Стоит отметить и большое количество
неработающих гиперссылок (680
уникальных гиперссылок), которые неоднократно повторяются по всему
Веб-пространству СПбГУ, тем самым снижают доверие пользователей к ресурсам
сайтов университета.
Таким образом, проведенный эксперимент
демонстрирует слабую связанность и коммуникабельность внутренних ресурсов Веб-пространства
СПбГУ, что влечет и его слабую позицию в вебометрическом рейтинге сайтов
университетов мира.
Литература:
1. Holmberg, K. & Thelwall, M. Local government
web sites in Finland: A geographic and webometric analysis // Scientometrics, –
79(1). – 2009. – P. 157-169.
2.
Печников
А. А. Вебометрические исследования Web-сайтов
университетов России // Информационные технологии. – 2008. – №11. – С. 74-78.
3.
Печников
А. А., Чирков А. В., Чуйко Ю. В. Исследование связности научно-образовательного
Веба // Учёные записки Петрозаводского государственного университета. Естественные
и технические науки. – №8(121). – 2011. – С. 111-113.
4.
Блеканов
И.С., Сергеев С.Л., Печников А.А. Повышение рейтингов университетов методами
вебометрики // Труды XIX Всероссийской научно-методической конференции
Телематика'2012. – СПГУ ИТМО. – СПб. – 2012. – Том 2. – С. 250-251.
5.
Блеканов
И.С., Сергеев С.Л., Мартыненко И.А. Построение тематико-ориентированных
веб-краулеров с использованием обобщенного ядра // Научно-технические ведомости
СПбГПУ. – Издательство Санкт-Петербургского Государственного Политехнического
Университета. – 2012. – № 5(157). – С. 9-15.