К.филол.н. Кобзарева Т.Ю.

 

Российский Государственный Гуманитарный Университет, Россия

 

Онтологический квадрат синтаксиса зависимостей

 

Введение

При автоматическом анализе синтаксическая структура предложения является мостиком,  позволяющим перейти от цепочки слов и знаков препинания к описанию составляющих его экстралингвистических ситуаций. Ниже предлагается описание онтологического квадрата синтаксиса зависимостей – модели, обобщающей методологический базис синтаксиса зависимостей и  позволяющей наглядно представить соотношение его базисных понятий и спектра проблем, требующих решения при автоматическом  синтаксическом анализе.

1. Онтологический квадрат синтаксиса зависимостей

Синтаксис, нацеленный на моделирование бесконечно вариативных коммуникативных единиц речи – предложений, нуждается в конструкторе с конечным набором исходных единиц, который позволил бы нам моделировать эти неисчислимые варианты коммуникативных единиц. При этом, строя идеальные модели для этого синтаксического конструктора, мы, осознанно или неосознанно, стремимся делать это, опираясь на смысл, то есть, в конечном счете, на самое важное для нас – информацию, которую язык кодирует.

В основе любых методов описания любых объектов лежит в первую очередь человеческая способность устанавливать их тождество, в нашем случае – смысловое тождество синтаксических единиц языка или речи. Как и в любых сферах человеческого познания, при описании языковых феноменов мы пытаемся тем или иным образом формализовать наши интуитивные представления, объективируя их тем самым для других исследователей.

Из модели Л. Теньера, предложившего представлять структуру простого предложения в виде дерева с вершиной – предикатом, и из понимания предиката в логике как семантически инвариантной функции, инвариантность которой определяется некоторым неизменным набором аргументов, среди которых различаются субъект и объекты, вырос вербоцентрический подход к синтаксису. Этот подход опирается на четыре базисных понятия, в значительной мере определяющих архитектуру всего здания синтаксиса зависимостей.

Эти четыре понятия – семантема, синтаксема, глубинно-синтаксическая структура предложения, поверхностно-синтаксическая структура предложения – составляют онтологический фундамент синтаксиса зависимостей.

Этот базис схематически можно представить в виде квадрата – онтологического квадрата, наглядно иллюстрирующего соотношения этих главных понятий синтаксического моделирования в синтаксисе зависимостей.


 

 

 

 
 

 

 

 

 

 

 

 

 


Рис. 1. Онтологический квадрат синтаксиса зависимостей.

В верхней и нижней половинах квадрата представлены понятия, соответственно используемые при моделировании структуры единиц языка и коммуникативных единиц – единиц речи.

Для моделирования синтаксических единиц языка служат два верхних понятия – семантема и синтаксема. Введение в лингвистический обиход этой пары понятий опирается на идею существования в языке и возможности моделирования единиц словаря синтаксиса двух уровней,  описывающих  соответственно смысловые структуры экстралингвистических ситуаций и их морфо-синтаксические представления.

Нижняя половина квадрата представляет два понятия, служащих для представления единиц речи, для которых мы, как и для синтаксических единиц языка, различаем два синтаксических уровня, представляемые при  моделировании их единиц глубинно-синтаксической и поверхностно-синтаксической структурами предложения. Эти два вида конструктов  используются при моделировании структур бесконечно вариативных единиц речи – предложений, которые строятся по определенным синтаксисом правилам соединения семантем и синтаксем – единиц словаря языка – в сложные единицы речи.

Соответственно, левая и правая  половины квадрата представляют:

левая половина квадрата – смысловой, или глубинно-синтаксический, уровень моделирования языковых и речевых единиц безотносительно к специфическим особенностям их реализации в конкретных языках;

правая половина квадрата представляет конструкты, описывающие реализацию глубинных синтаксических структур языка и речи с учетом конкретных языковых морфо-синтаксических особенностей реализации отдельных предикатов и их соединений в предложениях, простых и сложных, в реальных языках.

2. Единицы словаря языка – семантемы

Синтаксическое моделирование, опирающееся на четыре базисные компоненты, соотношение которых наглядно представлено в рассмотренном квадрате, исходит из представлений, может быть, их следует считать аксиомами синтаксиса зависимостей, что существуют, и мы можем их описать, некоторые минимальные экстралингвистические ситуации, не разложимые на более простые, которые в словаре языка могут быть представлены предикатами-вершинами. Такие ситуации обычно называют в лингвистике ядерными.

Такая ядерная ситуация, для которой в естественном языке существует хотя бы одно словесное имя (например, простое предложение), в словаре языка синтаксиса зависимостей это правый верхний угол,  может быть представлена в виде идеального конструкта – семантемы (в логике эти конструкты принято называть пропозициями). Семантема задает специфический для предиката – вершины  ситуации – набор участников ситуации, или партиципантов, безотносительно к средствам именования этой ситуации в конкретном языке. В силу знаковости языка у нас нет иного способа задать такую ситуацию, кроме как указать ее предикат-вершину – назвать вербальное имя предиката. При этом в естественном языке одно и то же имя предиката может отсылать к разным ситуациям, иногда явно различающимся, иногда – очень близким, то есть между словами-вершинами и семантемами нет взаимно-однозначного соответствия. Например, читать может называть действие, объект которого – текст (книга, статья и др.):  Ваня читает газету \ условие задачи \ объявления…, а  может означать возможность совершить это действие, т.е. ‘уметь \ быть в состоянии читать’: Ваня уже читает (‘умеет читать’) <хотя ему только два года>, <И.И. уже читает (‘в состоянии читать’) <хотя после операции на глазах прошло всего два дня>. Не существует определенного ответа на вопрос, нужно ли различать эти ситуации в словаре, предназначенном для поверхностно-синтаксического анализа текста (если это – конечная задача): и в первом случае, как и во втором, в реальном тексте в конкретной синтаксеме объект может быть не назван. Решение зависит от решаемой задачи и организации процедур анализа.

Мы знаем, что не все компоненты описания ситуации равноправны. Глагол красить в одном из своих значений задает ситуацию, в которой несколько партиципантов: субъект, который красит (например, мальчик), объект, который  красит субъект (например, стена), инструмент, которым красят (кисть), вещество, которым красят (например, краска). Могут появиться и другие компоненты: место действия, где мальчик красит (на улице), время, когда или\и как долго он красит  (в пятницу, вечером, весь день). Место и время действия для этого предиката не являются специфическими характеристиками ситуации этого предиката. Соответственно, вслед за Л.Теньером, принято различать при описании ситуации два вида ее составляющих: компоненты, соответствующие партиципантам, – синтаксические актанты и дополнительные, неспецифические – сирконстанты.­

Опираясь на эти представления, мы можем оперировать классами минимальных экстраязыковых ситуаций, для которых в каждом конкретном языке существуют определенные способы их представления, причем и сами эти ситуации, и их языковые представления задаются при помощи принятых в лингвистике формальных структурных схем. Так, набор партиципантов семантемы задается семантическими валентностями, а реализацию в языке семантических валентностей мы задаем синтаксическими валентностями. При этом предикаты, требующие актантов, получают набор активных валентностей, а способность слов выступать в качестве имен партиципантов этих предикатов описывается набором пассивных валентностей.  

Таким образом, семантемаэто условная единица нашего синтаксического конструктора, предназначенная для описания класса экстралингвистических идеальных элементарных ситуаций одного предиката. Семантема задает минимальную идеальную внеязыковую ситуацию при помощи конструкта, который называется семантической структурой предиката.  Предикат – вершина ситуации, в европейских языках, например, глагол – имеет идеальный набор обязательных участников ситуации, семантических актантов или партиципантов. А способность предиката иметь определенные семантические актанты описывается при помощи набора семантических валентностей, список которых (в принятых условных обозначениях) задает безусловные партиципанты (семантические актанты), характеризующие множество экстралингвистических ситуаций конкретного предиката.

3. Единицы словаря языка – синтаксемы

Идеальным семантическим актантам семантемы в каждой синтаксеме соответствуют определенные синтаксические актанты синтаксемы.

В конкретном языке при языковой реализации семантемы семантические актанты, именами которых чаще всего в простом предложении служат существительные, кодируются и различаются при помощи имеющихся в языке смыслоразличительных средств: в русском языке – морфологических форм слов, их порядка и др. Набор синтаксем предиката задает все способы поверхностно-синтаксического представления семантемы этого предиката в языке.

Так, в русском языке субъект глагола чаще всего бывает представлен существительным в Им.п., но есть и другие способы задания субъекта. Например, у группы предикативов, называющих состояние субъекта (холодно, приятно, страшно и т.д.), синтаксическая валентность субъекта в синтаксеме регулярно выражается существительным в Дат.п. (мне страшно, ребенку холодно). А при номинализации предиката в соответствующей синтаксеме субъект, который в этом случае чаще всего выражен Род.п. (ответ сына) – регулярный источник неоднозначностей из-за совпадения граммем субъекта и объекта: обследование этого врача, может быть выражен, например, и Тв.п (опровержение сыном этого утверждения). 

Объект чаще всего будет назван существительным в Вин.п., инструмент – существительным в Тв.п. и т.д. При этом одна и та же семантема в разных диатезах может быть поименована разными способами, при этом одни и те же семантические актанты оказываются закодированы по-разному. Например, Я вымыл чашку мылом. Чашка вымыта мною. Вымытая мною чашка. И т.д.

К тому же, не все семантические актанты обязательно бывают представлены в конкретной языковой реализации семантемы. В зависимости от особенностей синтаксемы и нелингвистических обстоятельств коммуникативного акта мы не всегда называем все партиципанты семантемы, но в идеальной структуре ситуации они все равно обязательно присутствуют. Например, в синтаксемах вымытая мною чашка \ чашка вымыта \ чашка вымыта мылом \ я вымыл чашку \ я вымыл чашку губкой представлены не все актанты глагола мыть,  при этом одни и те же партиципанты выражены разными формами слов и, более того, меняется даже направление связи: в поверхностно-синтаксической структуре вымытая мною чашка семантический предикат вымытая подчинен своему семантическому актанту. Соответственно, мы сталкиваемся с разными языковыми вариантами поверхностно-синтаксической реализации одной семантемы, с разными типами соответствия семантических и синтаксических актантов – с разными диатезами семантемы. По определению Е.В.Падучевой «диатеза – это соответствие (обычно подвижное) между семантическими ролями участников ситуации – такими как Агенс, Пациенс, Инструмент, Место – и синтаксическими позициями, такими как субъект, объект, инструменталис, предложная группа» [Падучева 2006].

Язык семантем и синтаксем позволяет строить и унифицировать словарь синтаксических единиц языка.

4. Проблемы моделирования единиц речи

В тексте мы редко сталкиваемся со структурами (то есть при моделировании – с поверхностно-синтаксическими структурами правого нижнего угла квадрата), представляющими одноядерные ситуации. Так, уже простое предложение Я мою чашку большой губкой включает в себя две ядерные структуры, каждая их которых описывается отдельной семантемой: семантемой предиката мыть с четырьмя семантическими валентностями, задающими обязательных участников ситуации: субъектом, объектом и двумя инструментальными участниками: инструментом, при помощи которого моют, и веществом, которое служит для мытья и семантемой предиката большой, у которого  есть единственная обязательная валентность – субъектная. В русском языке двум утверждениям с соответствующими ядерными структурами соответствуют, например, два простых предложения, представляющие две синтаксемы этих семантем: Я мыл чашку губкой. Губка большая.

Единицы речи – бесконечное множество коммуникативных единиц, представляющих собою допустимые языком комбинации синтаксем, соответствующих экстралингвистическим соединениям ситуаций, описываемых семантемами. Для описания содержательного и морфо-синтаксического устройства этих комбинаций мы используем понятия глубинная синтаксическая структура и поверхностная синтаксическая структура. Глубинная структура представляется в виде конструкта, моделирующего соединение семантем некоторой коммуникативной единицы. Поверхностная структура – конструкт, задающий реализацию глубинной структуры при помощи комбинаций соответствующих синтаксем.

В письменном языке мы, как правило, имеем дело со сложно организованными структурами, включающими в себя много разных предикатов.

При представлении на поверхностно-синтаксическом уровне в виде графа связей слов даже таких единиц речи, как простые предложения, предикаты некоторых семантем в синтаксемах оказываются вершинами в синтагмах, связывающих предикат с его синтаксическим актантом, т.е. хозяевами синтагм, а некоторые предикаты – слугами. В Ваня любит отца вершина семантемы является и вершиной синтагм, связывающих предикат с его семантическими актантами, а в словосочетании любящий отца Ваня вершина семантемы любящий является слугою своего семантического актанта – субъекта семантемы Ваня и хозяином его актанта – объекта синтаксемы отец.

Язык не терпит однообразия, монотонности. Чтобы избавить речевые структуры от монотонности, повторов структурных и лексических, язык предоставляет нам возможность не просто говорить простыми предложениями, называющими ядерные ситуации, хотя уже и сами простые предложения могут соединять в себе много ядерных ситуаций. Но, более того, язык позволяет нам соединять простые предложения в сложные структуры, преобразуя при этом эти простые предложения.

Для соединения ядерных структур язык имеет множество разных инструментов. Самыми важными являются для нас следующие.

·   Механизмы, элиминирующие в речи лексические повторы при соединении синтаксем, частично совпадающих лексически и структурно: построение сочинительных конструкций или сочинительное сокращение.

·   Механизмы, элиминирующие структурную монотонность – синтаксические повторы – и одновременно задающие синтаксические  связи  ядерных структур: трансформации простых предложений в части сложного: придаточные предложения, причастные и деепричастные обороты и т.д.

·   Механизмы, элиминирующие лексические повторы – анафорические замещения: замена полнозначных именных групп местоимениями;

·   Механизмы, элиминирующие лексические повторы  при структурном подобии: эллипсисы.

Эти четыре вида механизмов, сложности моделирования  работы которых  относятся к проблемам правого нижнего угла онтологического квадрата, то есть к проблемам поверхностно-синтаксического анализа,  

Соотношение четырех основных понятий онтологического квадрата языка зависимостей показывает спектр проблем при моделировании синтаксической структуры предложения на основе конечного, в силу конечности лексического фонда языка, перечня (словаря) семантем и синтаксем и механизмов соединения в предложения семантем и соответствующих им синтаксем.

5. Заключение

При автоматическом анализе текста переход от предложения – цепочки слов и знаков препинания – к его смыслу осуществляется, как правило, через этап анализа его поверхностно-синтаксической структуры. При этом, как бы ни был организован анализ в целом, именно результаты поверхностно-синтаксического анализа в значительной мере определяют возможности правильной интерпретации предложения.

При поверхностно-синтаксическом анализе стоит задача построить поверхностно-синтаксическое представление предложения, то есть нас занимают проблемы грамматики правой нижней четверти онтологического квадрата синтаксиса зависимостей. При этом, как бы ни были хороши словари, используемые при автоматическом анализе, для дальнейшего совершенствования возможностей автоматического анализа необходимо исследование перечисленных выше механизмов, работающих при построении единиц речи – предложений – из синтаксических единиц языка.

 

Литература

[Теньер 1988] Теньер Люсьен, Основы структурного синтаксиса. М.: Прогресс, 1988.

[Падучева 2006] Падучева Е.В. О семантике синтаксиса. Материалы к трансформационной грамматике русского языка. – 3-е изд., М., 2006.

 

Примечание

Работа подготовлена при частичной поддержке РФФИ: грант 12-06-00366-а