Дмитриев А.С.
Волгоградский
государственный технический университет, Россия
Семантический анализ текста с
использованием пространственно-временных отношений
В последнее время предпринято
большое количество попыток (и иногда довольно успешных) по созданию современных
интеллектуальных систем семантического анализа текстов и речи на естественных
языках. Существующие системы с разным успехом справляются с поставленными перед
ними задачами, но их общий и главный недостаток состоит в том, что семантика
текста строится в основном по конечным высказываниям и предложениям. При этом
смысл всего текста не рассматривается. Такой подход чреват сильным искажением
описанной информации в тексте, если, например, какой-либо факт расписан в
нескольких последовательных или разбросанных по тексту предложениях.
В результате
исследования был сделан вывод, что для решения данной проблемы необходимо
использовать методику построения сюжетных линий, или по-другому, цепочки
событий. Как правило, события описываются глаголами или отглагольными
образованиями. Идентифицировав события текста, можно попытаться выстроить между
ними причинно-следственную связь на основе пространственно-временных отношений,
что позволит достаточно точно описать семантику всего текста, а не отдельно
взятых предложений.
Согласно работе
Всеволодовой [Всеволодова и др., 2008], определение пространственных отношений
в тексте производится на основе так называемых оппозиций. На первом уровне
разбиения всех существующих в русском языке именных локативных групп наиболее
важным является отношение локализуемого предмета к локуму, которое основано на
нахождении предмета в какой-либо момент времени в пределах локума. В том
случае, если предмет в любой момент времени есть, был или будет в пределах
локума, то можно говорить о семе coпространственности: в поля, в поле, из поля,
полем, через поле, по полю. Иначе, если локализуемый предмет не находится, или
не будет находиться в пределах локума, то можно говорить об отношении
несопространственности: около поля, у поля, в двух километрах от поля, к полю,
мимо поля и т. д.
В построении
временного порядка используется множество грамматических категорий. К ним
относятся видо-временные формы глаголов, наречия времени, лексико-семантическая
информация и представление о познаваемом мире.
Большинство событий
описываются через конструкцию глаголов. Известно, что видо-временные формы
глаголов налагают ограничения на временной порядок событий (прошедшее,
настоящее, будущее, совершенный и несовершенный вид).
Для связи двух
событий используются временные союзы, временные предлоги, наречие, местоимение
и частицы. Они часто появляется в сложных предложениях, и описывает отношение
между частями. Например: перед тем
как, после, во время, с тех пор, когда,
пока, …
В настоящей работе для обработки текстов на
естественном языке с целью описания семантики предложений используется
коммуникативная грамматика русского языка, разработанная Золотовой Г.А.
Основная идея данной грамматики состоит в том, что синтаксис и семантика тесно
взаимосвязаны в рамках анализа смысла предложений.
Основным термином
коммуникативной грамматики является синтаксема. Она представляет собой слово
или словосочетание, значение которого определяется в зависимости от
категориального значения слова и морфологической формы, которые в свою очередь
реализуются в определенной синтаксической позиции. Смысл предложения
(высказывания) определяется совокупностью значений входящих в него синтаксем и
отношений между ними.
Для реализации
реляционно-ситуационного анализа используется предложенная Осиповым Г.С.
[Осипов и др., 2008] неоднородная семантическая сеть с расширенным семейством
отношений. Вершинами этой сети являются значения синтаксем, ребрами – отношения
между синтаксемами.
У описанной методики
анализа естественного текста, несмотря на то, что анализ на основе
коммуникативной грамматики считается одним из передовых в семантическом
анализе, есть существенный недостаток. Этот анализ способен выявить семантику в
рамках одного предложения или высказывания. Провести анализ и составить семантическую
модель всего текста данная методика не может.
Исходя из этого, было
принято решение расширить анализ естественных языков на основе коммуникативной
грамматики дополнительными категориями событийности, которые выражаются на всем
протяжении текста. Для установления между предложениями взаимосвязи
используется пространственно-темпоральные отношения между предикатными словами
и синтаксемами в предложениях. Структурно это представляет собой расширение
неоднородной семантической сети.
Например: «Вася
опаздывал в школу. Он срезал путь через дворы» (Рисунок 1).

Рис. 1. Пример
пространственно-темпоральной связки между семантическими моделями двух
предложений
На рисунке сплошными
линиями показаны значения синтаксем, а штриховыми отношения между синтаксемами.
Для выявления событийности используется изменение пространственных и временных
данных, связанных с указанными событиями.
Для определения
смысла конечных предложений используется неоднородная семантическая сеть,
выявляющая события в рамках одного предложения. Получив семантическую сеть, мы
получаем большой набор логических правил, среди которых содержатся правила,
описывающие пространственную и временную информацию. Но эта информация довольно
слабо связана между собой, поэтому целесообразно использовать комбинированную
логику темпоральных и пространственных отношений, для того, чтобы описываемые в
предложениях события представляли собой максимально четкую модель в
пространстве и времени.
Кроме того,
использование комбинированной пространственно-временной (или по-другому
топо-темпоральной) логики снижает потребление вычислительных ресурсов.
Использование каждой логики в отдельности с дальнейшими попытками связать
результат их работы с событиями требует существенных временных затрат.
До сих пор не было
составлено эффективной модели взаимодействия пространственных и временных
отношений, поскольку обычное сложение пространственных и временных логик не
дает желаемого результата. Связано это в первую очередь с проблемами
достижимости и сохранения условий динамических систем [Gabelaia и др., 2005].
Передвижение
пространственных объектов во времени представляется в виде модели “снимок экрана”,
т.е. в каждый момент времени фиксируется текущее положение объекта.
Пространственно-временная модель это пара Mod=(P,DT), где P=(U,I) - топологическое пространство, U
универсальное непустое множество пространства и I - оператор включения на U, а DT
это множество пространственных точек p в каждый момент времени
.
Временная логика в
работе представлена линейной временной логикой LTL. Для описания пространственных отношений используется логика
топологических пространств S4u совместно
с языком регионов RCC-8.
Размеченное течение
времени для LTL является любой строгой линейной последовательностью (W,<),
с временными точками
и отношением
предшествования <. LTL формулы построены из пропозициональных переменных p0, p1 используя
логические операторы и временной оператор til - “пока”.
Для
пространственно-временного языка LTL*
RCC-8 вводится следующие термы и формулы:
![]()
![]()
(1)
где
- пространственные термы, определенные на логике S4u, pi пространственные переменные, I и C – операторы включения и
замыкания,
- региональный терм,
- формула
комбинированной логики и Q -
обозначает предикаты RCC-8.
Идентификация
временных и пространственных отношений производится посредством методики
машинного обучения. Для выстраивания взаимосвязи между
пространственно-временными категориями и событиями в тексте используется
механизм логико-марковских сетей, где атомарные формулы (пространственные или
временные высказывания) являются вершинами, а связи сети логическими
операторами, связывающими узлы сети в высказывания комбинированной
пространственно-временной логики. Затем производится разбиение сети на
атомарные выражения, используемые в обыкновенной Марковской сети. Марковская
сеть выполняет задачу классификации по присваиванию тех или иных событий к
определенной цепочке событий.
Подставляя
в сеть утверждения, которые необходимо проверить (например, принадлежит ли
событие к данной цепочке событий) мы, опираясь на обученную сеть, можем
получить с некоторой степенью достоверности ответ на принадлежность события к
определенной цепочке событий.
Описанная
система может использоваться в задачах семантического поиска, поскольку
использование расширенных категорий событийности позволяет извлекать смысл не
только из конкретных предложений, но также из связных текстов, в которых
прослеживается четкая последовательность событий.
Список
литературы
1.
Всеволодова, М.В. Способы выражения пространственных
отношений в современном русском языке / М.В Всеволодова, Е.Ю. Владимирский. –
М.: Книжный дом «Либроком», 2009. – 288 с.
2.
Дмитриев, А.С. Извлечение пространственно-временных
отношений из текста на естественном языке / Дмитриев А.С. // Интегрированные
модели и мягкие вычисления в искусственном интеллекте : сб. науч. тр. VI
междунар. науч.-практ. конф. (Коломна, 16-19 мая 2011 г.). В 2 т. Т. 2 / Рос.
ассоциация искусственного интеллекта [и др.]. - М., 2011. - C. 883-889.
3.
Золотова, Г.А. Коммуникативные аспекты русского
синтаксиса. / Г.А.Золотова -.М, КомКнига, 2010. – 368 с.
4.
Осипов, Г.С.
Реляционно-ситуационный метод поиска и анализа текстов и его приложения
/ Осипов Г.С., Тихомиров И.А., Смирнов И.В. // Искусственный интеллект и
принятие решений / Институт системного анализа РАН. – М., 2008. - №2. – С.
3-10.
5. Gabelaia, D.
Combining Spatial and Temporal Logics: Expressiveness Vs. Complexity / David
Gabelaia, Roman Kontchakov, Agi Kurucz, Frank Wolter, Michael Zakharyaschev //
Journal of artificial intelligence research. – 2005. – P.167–243