Филологические науки/ 3.Теоретические и методологические проблемы  исследования языка.

Климов А.Н.

Кузнецкий институт информационных и управленческих технологий

(Филиал Пензенского государственного университета), г. Кузнецк, Россия

Проблема неоднозначности при анализе и переводе

текстов с английского языка на русский

Полный формальный семантический и синтаксический анализ естественно-языковых текстов приводит к большой неоднозначности. Несмотря на существующий научный интерес к различным методам семантического и синтаксического анализа, степень научной разработанности проблемы неоднозначности представляется недостаточной. Ни  одна система автоматического анализа и перевода текста не является совершенной или  хотя бы близкой к таковой.

Перед тем как рассмотреть некоторые примеры неоднозначности, определимся с самим по­ня­тием не­од­но­знач­но­сти. Здесь бу­дет при­ня­то сле­дую­щее оп­ре­де­ле­ние: по­верх­но­ст­ная (вы­ра­жен­ная) фор­ма не­од­но­знач­на в от­но­ше­нии лин­гвис­ти­че­ско­го про­цес­са, ес­ли у неё есть не­сколь­ко спе­ци­фи­че­ских оп­ре­де­ляе­мых про­цес­сом ин­тер­пре­та­ций, и ре­зуль­тат лин­гвис­ти­че­ско­го про­цес­са за­ви­сит от то­го, ка­кая из этих ин­тер­пре­та­ций вы­бра­на. Вы­бор спе­ци­фи­че­ской оп­ре­де­ляе­мой про­цес­сом ин­тер­пре­та­ции в кон­тек­сте будем считать уст­ра­не­ни­ем не­од­но­знач­но­сти.

Терри Виноград, чьи труды в области автоматической обработки текстов считаются классическими, выделил следующие типы неоднозначностей:

1) лексическая неоднозначность, которая встречается в предложениях, содержащих омонимы. Например, “She is fair.” В рамках данного предложения мы не можем определить, идет ли речь о женщине со светлыми волосами, о красивой или о справедливой женщине.

2) структурная неоднозначность, которая возникает в тех случаях, когда предложение может быть описано более чем одной грамматической структурой. Примером такой неоднозначности является предложение “They knew about their mistake.”, где речь может идти как об их собственной ошибке, так и об ошибке других людей.

3) неоднозначность глубинной структуры, которая возникает в тех случаях, когда два различающихся по смыслу прочтения предложения могут быть описаны только одной синтаксической структурой. Например, “Chickens are ready for dinner.” То ли цыплята будут обедать, то ли их съедят на обед.

4) семантическая неоднозначность, которая встречается, когда некоторое слово или словосочетание может выполнять в предложении различные роли. Например, в предложении “The English are standoffish.” речь может идти как об англичанах вообще, так и о каких-то конкретных представителях данной нации.

5) прагматическая неоднозначность, которая возникает, когда разным случаям  соответствует одинаковая синтаксическая структура. Так в предложении “She dropped the pen on the table and broke it.” невозможно однозначно определить, что именно было сломано - карандаш или стол.

Рассмотрим некоторые случаи синтаксической неоднозначности, т.е. те случаи, когда предложению или его части может быть приписано две или более синтаксических структур.

Классическим примером здесь выступает предложение:

(1) Time flies like an arrow.

(2) a. син­так­си­че­ская ка­те­го­рия ("flies") = гла­гол (Вре­мя ле­тит как стре­ла.)

      b. син­так­си­че­ская ка­те­го­рия ("flies") = су­ще­ст­ви­тель­ное (Му­хи вре­ме­ни лю­бят стрелку (ука­за­тель).) По аналогии с предложением “Fruit flies like a banana.” (Дрозофилам нравится банан.)

 (3) a.  [Time] [flies] [like an arrow]

  b.  [Time flies] [like] [an arrow]

Есть две воз­мож­ных син­так­си­че­ских ин­тер­пре­та­ции "flies" как по­ка­за­но в (2): гла­гол и су­ще­ст­ви­тель­ное. Ре­зуль­тат про­цес­са син­так­си­че­ско­го ана­ли­за (пар­син­га) за­ви­сит от то­го, ка­кая ин­тер­пре­та­ция вы­бра­на. При об­ра­бот­ке дан­ных (1), син­так­си­че­ский ана­ли­за­тор вы­явит струк­ту­ру (3a) для ва­ри­ан­та с гла­го­лом и струк­ту­ру (3b) для ва­ри­ан­та с су­ще­ст­ви­тель­ным.

Вот ещё несколько примеров:

(1) He studies buzzes and whistles.

(2) a. син­так­си­че­ская ка­те­го­рия ("whistles") = гла­гол (Он изучает жужжание и свистит.)

      b. син­так­си­че­ская ка­те­го­рия ("whistles") = су­ще­ст­ви­тель­ное (Он изучает жужжание и свист.)

(1) Thats past belief.

(2) a. син­так­си­че­ская ка­те­го­рия ("past") = предлог (Это - невероятно.)

      b. син­так­си­че­ская ка­те­го­рия ("past") = прилага­тель­ное (Это – устаревшее убеждение.)

(1) Flying planes can be dangerous.

(2) a. син­так­си­че­ская ка­те­го­рия ("flying") = причастие (Летающие самолёты могут быть опасны.)

      b. син­так­си­че­ская ка­те­го­рия ("flying") = герундий (Летать на самолётах может быть опасно.)

Теперь рассмотрим семантическую неоднозначность, т.е. случаи семантических переходов и контекстов, обуславливающих сдвиг значения.

При­мер не­од­но­знач­но­сти в се­ман­ти­че­ской клас­си­фи­ка­ции - фор­ма "suit" в приведённом примере.

(1) The suit is in Los Angeles.

(2) a. се­ман­ти­че­ская ка­те­го­рия ("suit") = юри­ди­че­ская

      b. се­ман­ти­че­ская ка­те­го­рия ("suit") = порт­няж­ная

(3) a. Су­деб­ный про­цесс со­сто­ит­ся в Лос-Анд­же­ле­се.

      b. Кос­тюм на­хо­дит­ся в Лос-Анд­же­ле­се.

Есть две се­ман­ти­че­ские ин­тер­пре­та­ции как по­ка­за­но в (2): "су­деб­ный про­цесс" и "со­во­куп­ность пред­ме­тов оде­ж­ды (кос­тюм)" (сре­ди дру­гих ин­тер­пре­та­ций). Ре­зуль­тат лин­гвис­ти­че­ско­го про­цес­са ос­мыс­ле­ния за­ви­сит от то­го, ка­кая ин­тер­пре­та­ция вы­бра­на. Нек­то, ус­лы­шав (1), бу­дет ин­тер­пре­ти­ро­вать это как зна­че­ние (3a), ес­ли вы­бра­на пер­вая ин­тер­пре­та­ция, и как зна­че­ние (3b) ес­ли вы­бра­на вто­рая ин­тер­пре­та­ция.

Вот ещё несколько примеров:

(1) Even a poor country has a capital.

(2) a. се­ман­ти­че­ская ка­те­го­рия ("capital") = финансовая

      b. се­ман­ти­че­ская ка­те­го­рия ("capital") = географическая

(3) a. Даже бедная страна имеет некий капитал.

      b. Даже бедная страна имеет столицу.

(1) Hes got a bat.

(2) a. се­ман­ти­че­ская ка­те­го­рия ("bat") = зоологическая

      b. се­ман­ти­че­ская ка­те­го­рия ("bat") = спортивная

(3) a. У него есть летучая мышь.

      b. У него есть бита.

При всей сложности проблемы синтаксической и семантической неоднозначности можно отметить, что при­об­ре­те­ние и уст­ра­не­ние языковой не­од­но­знач­но­сти про­ис­хо­дит лег­че, ко­гда оно свя­за­но с об­ще­ст­вен­ным взаи­мо­дей­ст­ви­ем (об­ме­ном ин­фор­ма­ци­ей в со­циу­ме), по­сколь­ку мы мо­жем ис­поль­зо­вать до­пол­ни­тель­ные клю­чи (ори­ен­ти­ры) из не­лин­гвис­ти­че­ско­го кон­тек­ста, про­со­дии (суп­ра­сег­мент­но­го сред­ст­ва ор­га­ни­за­ции ре­чи), и на­шу спо­соб­ность за­да­вать во­про­сы, ес­ли ос­та­ёт­ся воз­мож­ность не­пра­виль­но­го по­ни­ма­ния.

Не­смот­ря на по­тен­ци­аль­ные не­дос­тат­ки ана­ли­за, ба­зи­рую­ще­го­ся на ис­сле­до­ва­нии тек­ста, существует широкое поле для исследования про­бле­мы, и данное исследование име­ет важ­ные по­след­ст­вия для тео­рий лин­гвис­ти­че­ской ре­пре­зен­та­ции.

Литература:

1.     Апресян Ю.Д. Дейксис в лексике и грамматике и наивная модель мира // Семиотика и информатика, вып. 28, М., 1986, с. 5-33.

2.     Виноград Т. Работа  с  естественными  языками // Современный  компьютер. М., 1986, с. 90–107.

3.  Hinrich Schutze. Ambiguity resolution in language learning // Stanford, 1997.