Дмитриев А.С.

Волгоградский государственный технический университет, Россия

Автоматизация построения семантической структуры текста с использованием пространственно-временных отношений

 

1. ВВЕДЕНИЕ

Для решения проблемы построения семантики всего текста, а не только отдельных предложений, в задачах автоматизированной обработки тестовой информации необходимо использовать методику построения сюжетных линий, или по-другому, цепочки событий. Именно события в тексте играют в связке различных предложений ключевую роль. Как правило, события описываются глаголами или отглагольными образованиями. Определив все события текста, используя метод анализа текста на основе коммуникативной грамматики, можно попытаться выстроить между ними причинно-следственную связь, которая позволит достаточно точно описать семантику всего текста, а не отдельно взятых предложений. Кроме того, использование пространственных отношений между объектами дополняет событийную модель моделью физических отношений между объектами, которые описываются в тексте.

Исходя из вышесказанного, было принято решение о разработке системы, способной распознавать взаимосвязи между событиями и объектами в тексте, используя пространственно-временные отношениями между данными событиями для повышения семантической связности естественно-языкового (ЕЯ) текста.

2. СПОСОБЫ ВЫРАЖЕНИЯ ПРОСТРАНСТВЕННЫХ И ТЕМПОРАЛЬНЫХ ОТНОШЕНИЙ В ТЕКСТЕ НА ЕЯ

Согласно работе Всеволодовой [Всеволодова и др., 2008], определение пространственных отношений в тексте производится на основе так называемых оппозиций. На первом уровне разбиения всех существующих в русском языке именных локативных групп наиболее важным является отношение локализуемого предмета к локуму, которое основано на нахождении предмета в какой-либо момент времени в пределах локума. В том случае, если предмет в любой момент времени есть, был или будет в пределах локума, то можно говорить о семе coпространственности: «в поля, в поле, из поля, полем, через поле, по полю». Иначе, если локализуемый предмет не находится, или не будет находиться в пределах локума, то можно говорить об отношении несопространственности: «около поля, у поля, в двух километрах от поля, к полю, мимо поля».

В построении временного порядка используется множество грамматических категорий. К ним относятся видо-временные формы глаголов, наречия времени, лексико-семантическая информация и представление о познаваемом мире.

Большинство событий описываются через конструкцию глаголов. Известно, что видо-временные формы глаголов налагают ограничения на временной порядок событий (прошедшее, настоящее, будущее, совершенный и несовершенный вид).

Кроме этих параметров, события могут быть классифицированы различными аспектуальными классами (из которых основными являются состояния, процессы, моментальные события,  и события в развитии),  способами глагольного действия.

Для связи двух событий используются временные союзы. Они часто появляется в сложных предложениях, и описывают отношения между частями. Например: перед тем как, после, во время, с тех пор,  когда, пока, …

Кроме временных союзов, существуют ещё другие лексические единицы, которые влияют на временной порядок событий. Это временные предлоги, наречие, местоимение и частицы.

3. КОМБИНИРОВАННАЯ ПРОСТРАНСТВЕННО-ТЕМПОРАЛЬНАЯ ЛОГИКА

За основу анализа пространственных отношений взята топологическая логика. Логика топологических пространств в настоящий момент является одним из самых успешных подходов в описании пространственных отношений в искусственном интеллекте. Но до сих пор не было составлено эффективной модели взаимодействия пространственных и временных отношений, поскольку обычное сложение пространственных и временных логик не дает желаемого результата. Связано это в первую очередь с проблемами достижимости и сохранения условий динамических систем. Наиболее полное исследование, посвященное комбинированию пространственных и темпоральных логик, проведено в исследованиях David Gabelaia, Roman Kontchakov, Agi Kurucz, Frank Wolter, Michael Zakharyaschev и др.

В работе используется пространственная логика, основанная на пропозициональной логике, в которой унарные предикаты обозначают пространственные объекты, а топологические отношения между ними представляются с помощью внутренних операторов и операторов замыкания, кванторами общности и существования в пространстве и обычными логическими операциями. Данная логика называется модальной логикой и рассматривается как логика топологических пространств. Обозначается как S4u.

Пространственные термы этой логики представляют собой выражения следующего вида:

.

(1)

где pi пространственные переменные, I и C – операторы включения и замыкания.

Топологическая модель представляет собой структуру следующего вида:

.

(2)

где P=(U,I) – топологическое пространство, а  для любого i.

В работе для описания приведения к одной размерности описываемых пространственных объектов используется понятие регулярных замкнутых множеств (или просто «Регионы»).

Для описания регионов используется язык RCC-8. Синтаксис RCC-8 состоит из переменных, обозначающих регионы r, s, ... и восьми бинарных предикатов:

·       DC(r,s) регионы r и s не связаны;

·       EC(r,s) r и s внешне связаны;

·       и др.

Каждый из этих операторов может использоваться совместно с логическими операциями.

Аргументы RCC-8 предикаты - региональные переменные, интерпретируемые как регулярные замкнутые множества (регионы) топологических пространств. Расширить RCC-8 можно путем представления ее фрагментом логики S4u (Например):

.

(3)

и др.

Временная логика в работе представлена линейной темпоральной логикой LTL. Темпоральная логика является подходом к рассуждению о времени, используя темпоральные связки без явного указания количества времени. Самый популярный вариант этой логики это LTL, которая успешно используется в тестировании и верификации программного обеспечения.

Размеченное течение времени для LTL является любой строгой линейной последовательностью (W,<), с временными точками  и отношением предшествования <. LTL формулы построены из пропозициональных переменных p0, p1  используя логические операторы и темпоральный оператор U - “пока”. Например xUy означает, что “x справедливо, пока имеет место быть y”. Другие темпоральные связки Rf - когда-то в будущем, Ff - всегда в будущем Nf - в следующий момент.

LTL-модель представляет собой структуру следующего вида:

.

(4)

где T=(W,<), а  для любого i.

Далее рассмотрим комбинирование пространственной и темпоральной логики. Передвижение пространственных объектов во времени представляется в виде модели “снимок экрана”, т.е. в каждый момент времени фиксируется текущее положение объекта. Топологико-темпоральная модель это пара Mod=(P,DT), где P=(U, I) - топологическое пространство, а DT это множество пространственных точек p в каждый момент времени .

Для пространственно-темпорального языка LTL* RCC-8 вводится следующие термы и формулы [Gabelaia и др., 2005]:

,

,

.

(5)

где  - региональный терм,  - формула комбинированной логики и Q - обозначает 8 предикатов RCC-8.

4. ИДЕНТИФИКАЦИЯ ПРОСТРАНСТВЕННЫХ И ВРЕМЕННЫХ СВЯЗОК С ИСПОЛЬЗОВАНИЕМ ЛОГИКО-МАРКОВСКИХ СЕТЕЙ

Идентификация временных и пространственных отношений производится посредством методики машинного обучения. Для этого система на вход получает два типа корпуса текстов. Первый корпус - аннотированный  синтаксически размеченный корпус, второй - неразмеченный, по которому вручную расставляются метки с обозначением временных и пространственных отношений. Для обучения системы для выстраивания взаимосвязи между пространственно-временными категориями и событиями в тексте используется механизм логико-марковских сетей, позволяющий оперировать в своих вершинах обычными логическими формулами, представляющими комбинированную пространственно-временную логику, с последующим разбиением сети на атомарные выражения, используемые в обыкновенной Марковской сети. Марковская сеть выполняет задачу классификации по присваиванию тех или иных событий к определенной цепочке событий.

MLNs может ответить на запросы произвольной форме «Какова вероятность того, что формула F1 верна с учетом того, что формула F2 верна?» Если F1 и F2 являются двумя формулами в логике первого порядка и C является конечным набором констант, включая любые константы, которые появятся в F1 или F2 и L является MLNs, тогда:

(6)

где  является множество «миров» (интерпретаций) где выполняется формула

Подставляя в сеть утверждения, которые необходимо проверить (например, принадлежит ли событие к данной цепочке событий) мы, опираясь на обученную сеть, можем получить с некоторой степенью достоверности ответ на принадлежность события к определенной цепочке событий.

5. ЗАКЛЮЧЕНИЕ

Описанная методика призвана повысить качество работы существующих семантических систем обработки текстов, в частности интеллектуального поиска, вопрос-ответных систем и др. Она также может использоваться в задачах семантического поиска, поскольку использование расширенных категорий событийности позволяет извлекать смысл не только из конкретных предложений, но также из связных текстов, в которых прослеживается четкая последовательность событий.

 

Библиографический список

 

1.     Бердник, В.Л. Семантический анализ высказываний идентификации сущности / Бердник В.Л., Заболеева-Зотова А.В. // Известия ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах": межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2007. - Вып.3, №9. - C. 43-46.

2.     Всеволодова, М.В. Способы выражения пространственных отношений в современном русском языке / М.В Всеволодова, Е.Ю. Владимирский. – М.: Книжный дом «Либроком», 2009. – 288 с.

3.     Дмитриев, А.С. Извлечение пространственно-временных отношений из текста на естественном языке / Дмитриев А.С. // Интегрированные модели и мягкие вычисления в искусственном интеллекте : сб. науч. тр. VI междунар. науч.-практ. конф. (Коломна, 16-19 мая 2011 г.). В 2 т. Т. 2 / Рос. ассоциация искусственного интеллекта [и др.]. - М., 2011. - C. 883-889.

4.     Кондрашина, Е.Ю. Представление знаний о времени и пространстве в интеллектуальных системах. / Е.Ю.Кондрашина, Л.В.Литвинцева, Д.А.Поспелов; под ред. Д.А.Поспелова. – М.: Наука, 1989. – 328 с.

5.     Фамхынг, Д.К. Применение нечёткой нейронной сети к обработке временной информации в тексте на русском языке / Фамхынг Д.К., Захаров С.С. // AIS`08. CAD-2008. Интеллектуальные системы. Интеллектуальные САПР (пос. Дивноморское, 3-10 сент. 2008 г.): тр. междунар. науч.-техн. конференций / ФГОУ ВПО "Юж. федерал. ун-т" [и др.]. - М., 2008. - Т. 3. - C. 16-22.

6.     Gabelaia, D. Combining Spatial and Temporal Logics: Expressiveness Vs. Complexity / David Gabelaia, Roman Kontchakov, Agi Kurucz, Frank Wolter, Michael Zakharyaschev // Journal of artificial intelligence research. – 2005. – P.167–243