Современные информационные технологии/2.  Вычислительная техника и программирова­ние

Рудометкина Моника Николаевна

Томский политехнический университет, Россия

Штефан Кирилл Борисович,

Карагандинский государственный технический университет, Казахстан

Эттель Владимир Абрамович

Карагандинский государственный технический университет, Казахстан

 

Алгебра предикатов как формальный аппарат для описания естественного языка.

 

Автоматическая обработка естественно-языковой информации является одной из важнейших задач искусственного интеллекта. Важно совершенствовать общение человека с ЭВМ на естественном языке, улучшать качество машинного перевода, поиска по смыслу необходимой деловой и научной информации в Интернете. Решение этих задач существенно сдерживается недостаточной глубиной формального описания механизмов языка. Компьютер является математической машиной, в которой невозможно привести в действие неформализованные знания о языке, которыми располагает лингвистика (языкознание). До появления компьютеров лингвистика была ориентирована на обучение людей, которые способны усваивать неформализованные знания. С появлением компьютеров начала развиваться компьютерная лингвистика, как попытка научить компьютеры обрабатывать естественный язык. До настоящего времени преобладают трудоемкие и малоэффективные «силовые» методы решения задач машинной обработки информации, основанные большей частью на эмпирических попытках искусственного воспроизведения на ЭВМ непосредственно наблюдаемых естественно-языковых процессов, то есть речевого поведения людей.

Как показал многовековой опыт науки, более результативным и практичным является выявление и формальное описание глубинных законов, лежащих в основе изучаемых процессов. Известный московский лингвист и математик Ю.А. Шрейдер пишет: «Рост науки в гораздо большей степени, чем добытыми фактами измеряется возникновением новых содержательных концепций. И очень часто существенно новые концептуальные достижения определяются не силовыми методами с помощью ультрасовременных «отмычек», а возникают в тиши кабинета с помощью наиболее совершенного инструмента – человеческого разума. В начале пятидесятых годов складывалось впечатление, что электронные вычислительные машины послужат той самой «отмычкой», которая даст принципиально новые сведения о языке и позволит быстро автоматизировать процессы языковой коммуникации (проблема машинного перевода и некоторые связанные с нею проблемы). Смысл неудачи грубых чисто эмпирических попыток машинного перевода как раз и состоял в том, что электронные вычислительные машины не сумели сыграть роль отмычки по отношению к языку. Волей – неволей пришлось использовать человеческий разум и его способности математического описания явлений. Только весьма развитое математическое описание языка делает осмысленным дальнейшее использование технико-кибернетических методов в лингвистике для всякого рода практических приложений»[8, c. 38-39].

Для того чтобы подойти к выявлению и формальному описанию законов естественного языка, полезно воспользоваться опытом классической физики, которая описывает законы, царящие во внешнем мире, посредством уравнений. Каждое уравнение выражает некоторую связь между определенными переменными, которая с математической точки зрения представляет собой какое-то отношение. За две с половиной тысячи лет науке не удалось обнаружить в мире ни одного объекта или процесса, которые невозможно было бы выразить с помощью отношений.

В среде ученых, занимающихся изучением языка и мышления, существует предположение о том, что фразы, которыми люди выражают свои мысли, –  это отношения; более того, весь механизм языка представляет собой систему отношений и ничего более. Например, обращаясь с речью к другим людям, мы передаем им определенный смысл произносимого предложения, который, по-видимому, есть ничто иное, как некоторое отношение. Обмен мыслями между людьми осуществляется за счет приема и передачи отношений. Каждая мысль представляет собой некоторое отношение. Тогда мышление можно рассматривать как процесс преобразования отношений, получения новых отношений из уже имеющихся. Информация, поступающая к нам из внешнего мира, имеет вид отношений, характеризующих структуру окружающих нас предметов и процессов.

Исходя из этой гипотезы и опыта классической физики, можно сделать заключение о том, что законы естественного языка следует описывать в виде уравнений на некотором математическом языке. Однако тот математический язык, на котором описывает свои объекты классическая физика, плохо подходит для описания естественного языка. Дело в том, что во внешнем мире наблюдаются, в основном, непрерывные процессы, которые для своего формального описания нуждаются в языке числовой математики. Во внутреннем же мире человека преобладают процессы, имеющие логическую природу. Для формального описания законов естественного языка подходит язык логической математики, а именно, алгебра предикатов [2; 3; 4; 5; 6], на языке которой могут быть записаны в виде уравнений любые отношения. Аппарат алгебры предикатов развит настолько, что с его помощью можно уже в настоящее время приступить к формальному описанию механизма естественного языка.

К формальному аппарату для описания естественного языка предъявляется целый ряд требований: независимость лингвистического описания от процедур решения конкретных задач обработки текста; единство выразительных средств языка описания; универсальность, понимаемая как пригодность для описания целого класса близких по структуре языков; наглядность формальных конструкций; приемлемость для автоматической обработки.

Алгебра конечных предикатов (АКП) оперирует буквенными переменными и является естественным и удобным аппаратом для моделирования естественно-языковых отношений: Этот аппарат удовлетворяет всем требованиям, предъявляемым к языковым формализмам. При этом все виды морфологической обработки сводятся к решению алгебро-логических уравнений с различными исходными данными (полностью или частично заданными), что при наличии алгоритма решения этих уравнений, значительно упрощает формализацию различных процессов словесной обработки [1]. При таком подходе имеется возможность эквивалентных преобразований и минимизации рассматриваемой модели.

Представление математической модели естественного языка в виде системы логических уравнений (уравнений АКП) позволяет без изменения лингвистического обеспечения решать любые задачи грамматической обработки различных уровней языка, как с полным, так и с частичным заданием начальных значений.

Алгебра предикатов, как формальный аппарат, обладает единством выразительных средств. Системный подход к моделированию различных структурных единиц языка (флексийный в том числе) на базе применения единого формального аппарата алгебры конечных предикатов, позволит в перспективе создать гибкую, полную, адекватную, экономичную модель естественного языка. Кроме того, общность выразительных средств делает удобным анализ различных фрагментов такой модели языка.

Доказано, что алгебра конечных предикатов полна, т.е. на ее языке могут быть описаны любые конечные отношения. Поэтому любой другой математический аппарат, предназначенный для описания произвольных конечных отношений, в логическом смысле обязательно будет эквивалентен алгебре конечных предикатов. Более 20 лет использования и дальнейшего развития аппарата АКП для математического описания явлений русского языка продемонстрировало преимущества этой алгебры, причем настолько большие, что ни разу не возникла необходимость обратиться к помощи какого-либо другого формального языка.

В середине 19-го столетия в результате изучения смысловой структуры сложносочиненных предложений Джорджем Булем была разработана булева алгебра, которая оказала существенное влияние на развитие вычислительной техники [7]. Алгебра предикатов относится к классу булевых алгебр, она появилась в результате попыток математического описания процессов склонения и спряжения слов (процессов словоизменения) в 70-х годах 20-го столетия [7]. Это говорит о том, что подходящий формальный аппарат для описания естественного языка извлекают из анализа самого языка. Как алгебраическая система, любой естественный язык развит гораздо лучше, чем современный аппарат логической математики. Человек никогда не откажется от естественного языка в пользу языка математики или языков программирования, вообще – искусственных языков, разрабатываемых информатикой. Поэтому важно извлечь из естественного языка алгебрологический аппарат, который может оказаться намного более совершенным, чем известный и используемый в настоящее время. Это сильно увеличит возможности, как исследователей естественного языка, так и разработчиков любых информационных систем.

Опыт развития физики свидетельствует о том, что математический язык приходится постоянно развивать параллельно с развитием физических исследований. Обнаруживается, что математического языка постоянно не хватает. Только при достаточном его развитии можно надеяться на успешное развитие исследований реальных объектов. То же самое можно сказать и о языке логической математики, который следует развивать вместе с изучением явлений и законов естественного языка.

 

Литература:

1.      Андреева Е.С.  Язык как смысловая система : решение теоретических проблем и прикладных задач языкознания и информатики на основе разработки модульной понятийно-сетевой системы логической формы / Е. С. Андреева  Москва: МАКС Пресс, 2009 

2.      Бондаренко М. Ф. Об алгебре предикатов / Бондаренко М. Ф., Шабанов-Кушнаренко Ю.П. // Бионика интеллекта. – 2004. – № 1 (61). – С.15-26.

3.      Волгин Л.И. Алгебраические логики: элементы теории, взаимоотношения, реляторная схемотехника / Л. И. Волгин ; Федер. агентство по образованию, Ульянов. гос. техн. ун-т, Тольяттин. гос. акад. сервиса  Ульяновск: УлГТУ, 2005

4.      Гончаров С/С/ Алгебраические и алгоритмические свойства логических исчислений / С. С. Гончаров, Б. Н. Дроботун, А. А. - Новосибирск: 2009

5.      Махортов С.Д.  Математические основы искусственного интеллекта / С. Д. Махортов ; под ред. В. А. Васенина. -  Москва: Изд-во МЦНМО, 2009 

6.      Стрыгин В.З. Решение трудных задач теории чисел, алгебры и логики / В. З. Стрыгин  - Жуковский, 2006

7.      Тревгода С.А. Автоматизация обработки научно-технической информации // Приборы и системы. Управление, контроль, диагностика. - 2009. - № 7. - С. 24-26.

8.      Шрейдер Ю.А. О понятии «математическая модель языка» / Шрейдер Ю.А. - М.: Знание, 1971. – 63 с.