Современные информационные технологии/3. Программное обеспечение
К.т.н. Усманова И.В., Сафьянова М.Е.,
Забродина Л.В.
Пензенский
государственный университет, Россия
Процедура построения
семантической сети понятий предметной области
В настоящее время наличие успешно
действующей системы автоматизации делопроизводства и
документооборота говорит об эффективности управленческой деятельности, так как это
приводит к значительной экономии рабочего времени и материальных ресурсов.
В процессе своей деятельности специалисты
в области делопроизводства оперируют свойственными ей понятиями, накапливают
знания, которые могут оказаться полезными в дальнейшем.
Возможность использования
знаний предметной области позволяет создавать онтологии, облегчающие
взаимодействие специалистов делопроизводства. Онтология представляет собой
описание понятий (классов) в рассматриваемой предметной области, свойств
(слотов), описывающих каждое понятие, и ограничений, наложенных на слоты [1].
Онтология вместе с набором индивидуальных экземпляров классов входит в базу
знаний интеллектуальной системы. Характерной особенностью онтологий является
однородность смысловых связей между входящими в нее понятиями. Однако
современные интеллектуальные системы и усложнение структуры предметных областей
требуют обеспечения возможности использования разнородных понятий и
различающихся по смыслу связей между ними. В такой ситуации более
предпочтительно применение аппарата семантических сетей [2], позволяющего
реализовать указанное требование.
Рассмотрим процесс построения фрагмента
базы знаний, содержащего сведения об одном из основных понятий в области
документирования деятельности, а именно – документа.
Другими словами, цель рассматриваемого далее алгоритма – представление описания
понятия документ. Для решения этой
задачи необходимо выполнить следующие действия:
1.
Составить словарь терминов,
т.е. набор ключевых понятий, которые будут составлять базу знаний.
Так как речь идет о
делопроизводстве, обратимся в первую очередь к ГОСТ Р 51141-98
«Делопроизводство и архивное дело. Термины и определения», где дано определение
понятия документ, которое включает в
себя такие термины, как реквизит, носитель документированной информации и информация, которая может быть текстовой, графической, звуковой и числовой.
Кроме того, в ГОСТ определены разновидности документа, а именно изобразительный
документ, графический документ, аудиовизуальный документ, кинодокумент, фотодокумент, иконографический документ, фонодокумент, текстовой документ, официальный документ.
Анализируя далее текст стандарта, делаем вывод, что разновидностями официального
документа являются подлинник (официального) документа, дубликат
документа, копия документа, заверенная копия документа, дублетный документ.
2.
Определить значения
выбранных терминов с учетом определений, приведенных в ГОСТ Р 51141-98
«Делопроизводство и архивное дело. Термины и определения». На данном этапе
важно понять смысловое содержание вышеперечисленных понятий. Например, документ – это зафиксированная на материальном
носителе информация с реквизитами, позволяющими ее идентифицировать. Таким
образом, следует составить полный список понятий.
3.
Определить смысловые
связи между понятиями. Другими словами, строится сеть ассоциаций, где связи
только намечены, но пока не типизированы. Например, очевидно, что некоторым и,
возможно, различным, образом связаны понятия в следующих группах:
документ, официальный документ, реквизит, носитель
документированной информации, информация;
документ, изобразительный документ, графический
документ, аудиовизуальный документ, кинодокумент, фотодокумент,
иконографический документ, фонодокумент, текстовый документ;
информация, текстовая информация, графическая информация, звуковая
информация, числовая информация;
официальный документ, подлинник (официального)
документа, копия документа;
подлинник (официального) документа и дубликат документа;
копия документа, заверенная копия документа, дублетный
документ;
заверенная копия
документа, юридическая сила документа.
4.
Выделить объекты и
понятия. Понятие представляет собой обобщение объектов некоторого класса и выделения
этого множества объектов по определенной совокупности общих и отличительных для них признаков. Цель
этого этапа – своеобразное «просеивание» ключевых понятий и выбор значимых для
принятия решения понятий и их признаков. В идеале на этом шаге образуется
полный систематический набор понятий области знаний.
Таким образом,
результатом выполнения этого алгоритма является построение «пирамиды» знаний.
Под «пирамидой» знаний понимается иерархическая лестница понятий, подъем по которой
означает углубление понимания и повышения уровня абстракции (обобщенности)
понятий. Количество уровней в «пирамиде» зависит от особенностей предметной
области, профессионализма экспертов и инженеров по знаниям. Проиллюстрируем
особенности выполнения шагов алгоритма с помощью приведенного выше примера.
По сути, требуется установить для каждого
элемента
семантическое
отношение
с элементом
,
,
,
,
, где
– количество понятий
предметной области, а
– количество
семантически значимых отношений между понятиями предметной области. Результатом
является построение множества дуг, связывающих вершины. В качестве вершин
выступает множество понятий, выделенных при выполнении шага приведенного выше алгоритма, качестве дуг –
семантические отношения между этими понятиями. Вершиной (или вершинами) является
родовое понятие, которое не имеет надкласса, а нижний уровень представляют
конкретные понятия, т. е. не имеющие видовых понятий в заданной предметной
области.
В общем случае, этот процесс представляет
определение понятия
, которое включает подмножество понятий
, через которые определяется
, и множество свойств,
присущих
. Иными словами, определяется
класс понятия
и его подкласс
.
Таким образом, понятие Документ является вершиной модели
представления знаний.
Исходя из определений понятий официальный документ, изобразительный документ, графический
документ, аудиовизуальный документ, кинодокумент, фотодокумент,
иконографический документ, фонодокумент, текстовой документ, приведенных в ГОСТ Р 51141-98, можно
сделать вывод, что все они являются разновидностью документа, следовательно, Официальный документ, Изобразительный документ, Графический
документ, Аудиовизуальный документ, Кинодокумент, Фотодокумент,
Иконографический документ, Фонодокумент и Текстовой документ
будет выступать как подклассы класса Документ.
Анализируя понятия подлинник (официального) документа и копия документа, можно сделать вывод о том, что эти термины
являются разновидностью официального документа, т.е. класс Официальный документ имеет два подкласса – Подлинник (официального) документа и Копия документа.
Так как подлинник (официального документа)
может иметь второй экземпляр, который называется дубликатом документа, то класс
Подлинник (официального) документа
включает подкласс Дубликат документа.
Копия так же имеет экземпляры – дублетные
документы, следовательно, Копия будет
являться классом подкласса Дублетный
документ.

Иерархия классов, описывающих понятие документ, представлена на рисунке 1.
Рисунок 1 - Иерархия классов понятия
"документ"
После определения состава классов следует
описать внутреннюю структуру понятий.
Иными словами, после того, как выбраны классы
из списка понятий, необходимо определить их свойства. Большинство оставшихся понятий
из имеющегося списка, возможно, являются свойствами этих классов. Такими
понятиями являются носитель
документированной информации, реквизит, юридическая
сила документа, информация.
Для каждого свойства из списка необходимо
определить, какой класс оно описывает. Эти свойства называют слотами; слоты
привязываются к классам.
Таким образом, анализируя понятия документ и заверенная копия документа, определим, что класс Документ имеет следующие слоты: носитель документированной информации,
реквизит, информация, а класс Заверенная
копия документа - слот юридическая
сила документа.
Все подклассы класса наследуют слот этого
класса. Например, все слоты класса Документ
будут унаследованы подклассом Официальный
документ.
Слот должен быть привязан к самому общему
классу, у которого может быть данное свойство. Поэтому слоты носитель документированной информации,
реквизит, информация привязаны
именно к классу Документ, так как это
самый общий класс, чьи экземпляры будут
иметь носитель, реквизит, информацию.
Исходя из определения, юридическая сила документа является
свойством не только заверенной копии
документа, но и подлинника
(официального) документа. Поэтому юридическая
сила документа будет являться слотом также для класса Подлинник (официального) документа.

Классы и присвоенные им слоты для понятия документ представлены на рисунке 2.

Информация в документе может быть текстовой,
графической, звуковой и числовой. Поэтому слот информация будет иметь следующие значения: текстовая, графическая, звуковая, числовая. Слот информация и его значения представлены
на рисунке 3.
Теперь, когда выделены классы и их слоты, необходимо
выявить отношения между понятиями как внутри каждого из уровней пирамиды, так и
между уровнями. Фактически на этом шаге определяются типы смысловых связей,
которые были выявлены ранее.
При определении связей вершин (взятых
поочередно, начиная с первых записей составленного ранее списка понятий)
следует извлечь информацию из
соответствующих определений понятий о конкретных
семантических отношениях
.
Из определения видно, что понятие документ
включает два термина (реквизит и носитель документированной информации),
а также понятие информация, которое не определяется ГОСТ Р 51141-98, но закреплено
в Федеральном
законе «Об информации, информационных технологиях и о защите информации» от 27.07.2006 № 149-ФЗ.
Все эти понятия являются неотъемлемой составляющей понятия документ и закрепляются связью имеет.
Как следует из определения, информация,
зафиксированная на материальном носителе, должна быть обязательно оформлена
путем проставления необходимых реквизитов. Только тогда она становится документом. То есть реквизит –
это неотъемлемая часть документа, и вершина реквизит
связывается с вершиной документ
связью входит (Рисунок 4).
В свою очередь, информация может быть
звуковой, графической, текстовой и числовой. Поэтому в данном случае используем
тип связи может быть (Рисунок 5).

Термины изобразительный документ, графический
документ, аудиовизуальный документ, кинодокумент, фотодокумент,
иконографический документ, фонодокумент, текстовой документ представляют
собой объекты, являющиеся разновидностями объекта документ. Они выделяются по
признаку «способ создания документа» и описываются связью может быть
(Рисунок 6).

Термин официальный документ является
разновидностью документа в зависимости от правильности его оформления и
удостоверения, поэтому между понятиями устанавливается связь может быть.
Так как
подлинник (официального документа) представляет собой первый или единичный
экземпляр официального документа, между понятиями определяется связь включает.
Аналогичную связь имеют понятия копия документа и официальный документ, исходя из их определений.

Дубликат документа является экземпляром
подлинника (официального) документа, поэтому между понятиями устанавливается
связь включает.
Дублетный документ является экземпляром
копии документа. Между данными понятиями определяется связь включает. Кроме того, копия документа может
быть заверена (связь может быть) и, в
этом случае, имеет юридическую силу,
как и подлинник документа (связь имеет).
Ранее было указано, что все подклассы
класса наследуют слот этого класса. Поэтому подкласс Дубликат документа класса Подлинник
(официального) документа также будет иметь юридическую силу. Таким образом,
следует обозначить отношение между данными понятиями и установить тип связи имеет (Рисунок 7).
![]()


Подкласс Официальный документ унаследует слоты носитель документированной информации, реквизит, информация класса Документ и его связи с ними, которые
также необходимо обозначить в семантической сети. Смысловые связи класса Официальный документ со слотами представлены
на рисунке 8.




Таким образом, построен
фрагмент семантической сети для представления термина документ, который в практическом применении позволит осуществлять
оценку состояния системы документооборота и повысить ее эффективность.
Литература:
1.
Найханова
Л.В. Технология создания методов автоматического построения онтологий при
применением генетического и автоматного программирования: Монография. – Улан-Удэ: Изд-во БНЦ СО РАН, 2008. – 224 с.
2.
Усманова
И.В. Сетевые модели представления знаний для решения задачи анализа документооборота
организации – Известия ПГПУ им. В.Г. Белинского. № 26 – 2011- С. 412-417.