Карагандинский государственный технический
университет, Казахстан
Применение
онтологического подхода к аннотированию документов
Сегодня информационные технологии
внедряются повсеместно, но традиционные информационные системы не отвечают
современным требованиям пользователей при росте объема информации. Немаловажной
проблемой остаётся унификация представления информации в рамках информационной
среды организации. Это достигается путем создания моделей описания знаний по
предметным областям организаций и формирования специальных метаописаний всех
информационных ресурсов.
Одним
из способов решения этой задачи является применение в качестве содержимого
метаданных использование элементов онтологии.
Задача аннотирования в рамках создания
семантических метаданных сводится к созданию множества семантических триплетов
и ассоциирования их внутри информационной системы с описываемым
объектом-контейнером.
Одним из способов создания семантического
метаописания в системе является создание интегрированной подсистемы, при помощи
которой можно будет описывать все внутренние объекты системы. Возможны два
варианта реализации - ручной и полуавтоматический.
Ручной вариант реализации заключается в
создании редактора метаданных. Интерфейс ‑ для удобного и быстрого
создания метаданных пользователем на основе знаний о предметной области об
описываемом объекте, в том числе и о его внутреннем содержании. Основные задачи
интерфейса – предоставить возможность конструирования метаданных с одновременной
навигацией по онтологии.
Полуавтоматический
вариант реализации предполагает создание подсистемы, которая вначале
анализирует описываемый объект, а после этого предоставляет пользователю
«черновой вариант» семантического метаописания, который пользователь может
отредактировать. При этом экономится время специалиста на ознакомление с
содержанием объекта.
Семантические метаданные применяются для
описания объектов семантического портала и используются в процедурах
семантической обработки информации. При формировании семантических метаданных
используется метод формирования семантических метаданных, который определяет
правила выбора предикатов и объектов из онтологии, а также определяет алгоритм
поиска понятий и экземпляров в тексте.
Формирование семантических метаданных
объекта портала должен выполнять человек. Он должен в соответствии с сущностью
предмета описания определять элементы семантических метаданных. Элементы
представляют собой либо триплеты со структурой «субъект–предикат–объект», либо
отдельные понятия или экземпляры из онтологии, которые будем называть
«субъект». Создавая элемент семантических метаданных, человек обязательно
должен указать «субъект». После этого он может дополнительно указать «предикат»
и «объект».
Если субъект указывается человеком таким
образом, чтобы отражать сущность предмета описания, то на выбор предиката и
объекта накладываются дополнительные ограничения, которые вытекают из правил
формирования высказываний дескриптивной логики.
Множество возможных предикатов в триплете
ограничивается выбранным субъектом триплета. В таблице 1 приведены правила
формирования множества
возможных предикатов
в триплете на основании определения онтологии
.
Таблица 1. Правила
определения возможного значения предиката в триплете
|
Значение субъекта |
Правило |
|
Понятие |
|
|
Экземпляр |
|
То есть, в качестве предиката человек
может выбрать те отношения или атрибуты, которые в онтологии определены для
субъекта – понятия или экземпляра.
После выбора предиката человек должен
обязательно указать объект триплета. Множество возможных объектов зависит от
выбранного предиката. Правила формирования множества
возможных объектов в
триплете на основании определения онтологии
приведены в таблице
2.
Таблица 2. Правила определения возможного значения
объекта в триплете
|
Значение предиката |
Правило |
|
Отношение |
|
|
Атрибут |
|
То есть, возможные значения предиката
определяются либо областью конкретных значений атрибута, либо областью значений
отношения.
При соблюдении указанных правил человек
формирует элементы семантических метаданных. Ограничений на количество
элементов в семантических метаданных не накладывается. Если семантические
метаданные формируются на основании текстового описания объекта, то в дополнение
к правилам выбора предикатов и объектов используется алгоритмом поиска понятий
и экземпляров в тексте. Это позволяет частично автоматизировать процесс выбора
субъекта из онтологии. С этой целью текстовое описание анализируется на наличие
понятий и экземпляров, которые могут выступать в качестве субъектов в элементах
семантических метаданных.
Человек, формирующий семантические
метаданные, должен отредактировать полученное множество понятий и экземпляров:
-
удалить элементы, не
отражающие сущность объекта описания;
-
устранить
многозначность, если множество содержит элементы с одинаковыми лексическими
метками;
-
дополнить множество
понятиями и экземплярами, не найденными алгоритмом.
После этого элементы множества могут быть
использованы для формирования триплетов в соответствии с описанными выше
правилами выбора предикатов и объектов.
В качестве базового средства формирования
метаданных для описания широкого класса цифровых объектов используется Дублинское
ядро метаданных (англ. Dublin Core). Элементы Дублинского ядра можно условно разбить на
три группы:
-
Content — элементы, в
основном относящиеся к содержанию ресурса;
-
Intellectual Property —
элементы, в основном рассматриваемые с позиции интеллектуальной собственности;
-
Instantiation —
элементы, в основном относящиеся к данному экземпляру ресурса.
Главная идея, на которой основан процесс
интеграции разнородных данных, заключается в приведении форматов метаданных
информационных ресурсов к единому стандарту на базе Dublin Core. Преимущества такого решения состоят в том,
что появляется единый подход к описанию разнородных объектов, следовательно,
появляется возможность сравнивать смысловую близость разнородных объектов.
Литература:
1. Тузовский
А.Ф., Ямпольский В.З. Информационные технологии в управлении знаниями.
Кибернетика и вуз. Межвузовский научно-технический сборник. Выпуск 30. – Томск:
Изд-во ТПУ, 2003.
2. Россеева
О.И., Загорулько Ю.А. Организация эффективного поиска на основе онтологий //
Труды международного семинара «Диалог'2001» по компьютерной лингвистике и ее
приложениям. – 2001.