Егоров Е.А.

Рязанский государственный радиотехнический университет

Поиск онтологий в технологии Semantic Web

 

В последнее время наблюдается значительный рост количества документов, опубликованных в Семантической паутине, что делает все более актуальной проблему повторного использования существующих баз знаний. Для ее решения крайне важно исследовать подзадачу поиска необходимых онтологий в технологии Semantic Web.

Поиск подходящей онтологии в сети Интернет является достаточно трудоемким процессом, поскольку существующие системы оптимизированы для работы с обычными текстовыми документами Всемирной паутины. Также довольно сложно быстро оценить качество найденных онтологий, так как отсутствуют средства визуализации результатов.

В докладе рассматривается подход к поиску онтологий, основанный на традиционных методах, применяемых в современных системах поиска во Всемирной паутине.

Инициатива Semantic Web направлена на создание стандартов, позволяющих осуществлять семантическое аннотирование данных при помощи специализированных метаданных, чтобы затем применять интеллектуальные алгоритмы и методы для их обработки. Метаописания соответствуют классам, а сами данные – их экземплярам. Информация о классах хранится в онтологиях. Предполагается, что для каждой задачи имеется своя узкоспециализированная онтология. Но на практике приходится выбирать онтологию из уже существующих, что приводит к необходимости разработки эффективных средств их поиска.

С технической точки зрения, онтология представляет собой документ в формате OWL или RDFS, который можно индексировать, хранить и анализировать. С другой стороны, она является структурированным элементом базы знаний, содержащим семантические ссылки на другие онтологии.

Рассматриваемая в докладе система поиска осуществляет обход, индексирование, анализ и организацию доступа к онтологиям, опубликованным в Семантической паутине. Поддерживаются наиболее популярные форматы документов: OWL (Full, DL, Lite), RDFS и DAML.

Индекс состоит из описаний классов и объектов онтологий с указанием связей между ними. Параллельно строится второй индекс, отображающий текстовые поля (имена и метки онтологий, классов и свойств) в соответствующие элементы баз знаний.

Для поиска необходимой онтологии пользователь составляет поисковый запрос из нескольких ключевых слов. Система производит поиск онтологий, в которых встречается хотя бы одно из указанных слов. После этого для найденных на первоначальном этапе результатов рассчитывается оценка ряда критериев.

Для оценки качества онтологии предлагается измерять следующие ее характеристики:

·                   внутренняя сложность;

·                   охват предметной области;

·                   обширность связей с другими онтологиями.

Внутренняя сложность онтологии рассматривается как среднее количество отношений между сущностями. Чем их больше – тем сложнее онтология:

, где

 - значение внутренней сложности;

 - количество отношений;

 - количество сущностей.

Охват предметной области выражается в количестве элементов базы знаний (онтологии), содержащих хотя бы одно из указанных пользователем в поисковом запросе ключевых слов. Чем больше таких элементов, тем выше значение критерия:

 , где

 - значение критерия охвата предметной области;

 - элемент онтологии;

 - множество текстовых полей элемента ;

 - множество ключевых слов поискового запроса.

Обширность связей  онтологии измеряется в количестве семантических ссылок на другие онтологии. Чем их больше, тем выше ее качество.

После расчета всех указанных критериев необходимо измерить единый показатель качества онтологии, чтобы произвести ранжирование результатов.

Предлагается вычислять показатель по следующей формуле:

, где

 - значение меры качества онтологии;

, ,  - нормирующие коэффициенты.

Результаты ранжируются в порядке убывания рассчитанного показателя. В случае, когда число найденных онтологий слишком велико, поисковая выдача ограничивается 50 пунктами.

Планируется визуализация результатов поиска, которая предоставит пользователю возможность просмотра таксономической иерархии.

 

Библиографический список

1.                 L. Ding, T. Finin, A. Joshi, R. Pan, R.S. Cost, Y. Peng, P. Reddivari, V. Doshi, and J. Sachs. Swoogle: a search and metadata engine for the semantic web. Proceedings of the Thirteenth ACM conference on Information and knowledge management, pages 652–659, 2004.

2.                 M. d’Aquin, M. Sabou, M. Dzbor, C. Baldassarre, S. Gridinoc, L. Angeletou, and Motta E. WATSON: A Gateway for the SemanticWeb. In Proceedings of the 5th International Semantic Web Conference (ISWC), Georgia, USA, 2005.