Осідач Андрій Олегович
Аспірант,
кафедра екології та екоінформаційних систем
Національний університет “Львівська політехніка”
Опис
моделі класу документів за допомогою граматик
Згідно з визначенням, електронний
документ є сукупністю даних в пам'яті обчислювальної системи, призначену для
сприйняття людиною за допомогою відповідних програмних і апаратних засобів.
Електронний документ може включати текстову, графічну і звукову інформацію,
мати нелінійну структуру; різні користувачі можуть переглядати його в різній
формі і змінювати його.
Електронний документ може бути
розглянутий у вигляді сукупності двох структур: фізичної структури і логічної
структури. Між фізичною і логічною структурами не існує однозначної
відповідності, але їх окремі елементи можуть знаходитися в прямій залежності
один від одного.
Автором запропонована математична модель
електронного документу заснована на застосуванні логічних областей, що дозволяє
розробляти методи обробки різнокласових електронних документів в сучасних
системах електронного документообігу. Математична модель описує кожен окремо
взятий документ. Щоб описати загальну структуру деякої безлічі однорідних
документів, званого також класом документів, вимагається використання граматик.
Припустимо, що задана деяка безліч документів
D = {D1, D2, …, Dn). Тоді
кожному з цих документів Di, i
=1,...,n, можна
поставити у відповідність його структуру Si, що є сукупністю логічної структури Sli і фізичної структури Spi.
Позначимо безліч логічних структур документів з класу D через:
SL = {SL1, SL2,
…, SLn},
де SLi = (Ci, Ri), причому Ci: Zi →∑*i і Ri: Zi × Zi
→ Θi,
де Zi - сукупність всіляких логічних
областей документу Di,
∑*i - алфавіт символів в
документі Di,
Θi, - безліч роздільників
можливих в документі Di.
Тоді SL= (С, R), де
C: Z →∑*; R: Z×Z → Θ,
- всілякі логічні області заданого класу документів D;
- алфавіт символів в класі
документів D;
- безліч роздільників в класі документів D.
Розглянемо тепер ієрархічні грати Z. Задамо на розбиття J,
суміжними класами якого є елементи, що мають загальну точну верхню
грань A,
причому ніяка двоелементна підмножина великої кількості Z,
у яке входить хоч б один елемент цього суміжного класу, не має
такої точної верхньої грані А', що А'
zА. Іншими
словами, для усіх l
Z
вірно, що l
Z(i) тоді і тільки тоді, коли:
(a) sup(l(i1), l(i2), … l(im)),
де
Z(i) = (l(i1), l(i2), … l(im)) – i-й
суміжний клас розбиття J і
(b) для будь-кого m
Z і l
Z(i) sup (m, i) = A'
причому А'
zА.
Описуючи розбиття J в термінах деревоподібної структури,
можна сказати, що в суміжні класи об'єднуються елементи, що мають загальний
батьківський вузол.
Розглянемо тепер спосіб представлення загальної логічної
структури документів із заданого класу D у
вигляді контекстно-вільної граматики.
Припустимо, що така граматика GD = {ND, TD, РD, ∆D} існує.
Тут ND - безліч нетермінальних символів, TD - безліч термінальних символів, РD - безліч продукції і ∆D
ND - початковий
символ граматики.
Тоді множина TD співпадає
з множиною ∑ - алфавітом, прийнятому в області D; безліч
нетермінальних символів ND співпадає з безліччю логічних областей, що
становлять грати Z. Початковий символ ∆D є загальний максимальний елемент структур Zi, i
=1,...,n,.
Накінець, безліч продукцій РD може
бути побудовано з чинник-множини Z/J і відображень С і R. Дійсно, чинник-множина Z/J у
сукупності з відображенням R дозволяє
отримати правила для нетермінальних елементів; відображення С зв'язує в правилах нетермінальні і
термінальні символи. Структура чинник-множини Z/J гарантує, що в лівій частині отриманих
правил стоятиме тільки один нетермінальний символ, а права частина правил може
складатися з ланцюжка термінальних і нетермінальних символів. Отже, граматика GD є контекстно-вільною.
Таким чином, загальна логічна
структура деякого класу документів може бути описана за допомогою
контекстно-вільної граматики GD. Відображення Н дозволяє
зв'язати фізичну і логічну структури шляхом приписування продукції граматики GD відповідних фізичних атрибутів.
Нині є важливою проблема розмітки логічної структури
електронних документів в класі документів із змінюваною структурою. Електронні документи, що відносяться
до цього класу, мають постійну структуру, що змінюється; крім того, сам склад
цих документів може постійно мінятися. Проте, в кожен момент часу усі ці
документи мають строгу логічну структуру, яка може бути описана явним чином. Наприклад, в СALS- технологіях (Continuous Acquisition and Life-cycle Support) рекомендується
приміняти стандартизовані інтерактивні електронні технологічні керівництва (ІЭТК),
які є організованими в базу даних набір документів у форматі SGML.
Введення стандартів для структуризації документів забезпечує можливість передачі
даних між різними організаціями, централізоване управління даними і можливість
автоматизації процесу розробки структурованих документів.
Таким чином, важливою і перспективною розробкою в області
створення систем документообігу є завдання відображення структури електронного
документ за допомогою стандартизованого формату представлення даних,
розпізнавання логічної структури документів з метою збереження її в цьому
форматі і об'єднання безлічі структурованих документів в базу даних з потужною
мовою запитів.
У зв'язку з цим, необхідно провести моделювання логічної структури
електронних документів, а також формалізувати їх елементи з метою застосування
цих моделей до постійно змінюваної корпоративної документації класу із
змінюваною структурою.
Дослідники, що працюють в області розпізнавання структури
документів, передусім звертають увагу на побудову моделі логічної структури
документу. Але розглянуті автором підходи до моделювання документів, дозволяють описувати тільки документи, що
відносяться до класу частково структурованих документів і частково документи
класу документів з обмеженою областю змін.
Статистична модель дозволяє описати документи класу документів із змінюваною структурою, проте не дозволяє явної побудови
граматики розглянутого класу документів.
Виходячи з цього, автором пропонується математична модель
електронного документу, заснована на застосуванні логічних областей, що
дозволяє розробляти методи обробки різнокласових електронних документів в
системах електронного документообігу.
Сутність моделі, що пропонується, заснована на
наступних визначеннях.
Позначимо через М –
безліч всіляких логічних міток заданого документу D.
Визначення 1. Припустимо, що
т
М - мітка, що визначає тип
логічного об'єкту і О – область, обмежена межею логічною об'єкту. Тоді пара (m, О) називається
логічною областю заданого об'єкту.
Межа логічного об'єкту задається за допомогою відповідних
тегів логічної розмітки.
Визначення 2. Логічні області (m1,
О1)і (m2, О2) називаються
рівними, тобто: (m1, О1) = (m2,О2), якщо m1 = m2 і О1 = О2.
Визначення 3. Логічна область (m1,
О1) називається вкладеною в логічну
область (m2, О2), тобто: (m1, О1)
(m2, О2), якщо О1
О2, причому О1 = О2 тоді і тільки тоді, коли (m1,
О1) = (m2, О2).
Нехай Z - безліч усіх логічних областей документу D. Визначимо відношення
z таким
чином:
(m1,
О1)
z (m2, О2)
(m1, О1)
(m2, О2) и (m1, О1), (m2,
О2)
Z.
Таким чином, логічна структура документу може бути пояснена
за допомогою вкладених логічних
областей (рисунок 1).


Рисунок 1 – Приклад зображення логічної структури
документу у вигляді вкладених логічних
областей
Таким чином, за результатами дослідження можливо зробити
наступні висновки:
одним з найбільш важливих етапів системного дослідження
складної системи документообігу являється розробка математичних моделей. Щоб
описати набір правив, характерних для електронних документів, необхідно
розробити математичну модель документу, іноді також звана універсальним
документом;
зазвичай розрізняють два типи структур електронного
документу: фізична структура, яка групує фізичні об'єкти в документі; і логічна
структура документу, яка відбиває його логічну організацію. Тобто, закінчена
модель документу складається з двох частин: фізична структура і логічна
структура;
виходячи з цього, автором запропонована математична
модель електронного документу заснована на застосуванні логічних областей, що
дозволяє розробляти методи обробки різнокласових електронних документів в
сучасних системах електронного документообігу.