Современные информационные технологии / 3. Программное обеспечение

 

Магистрант Жакиева С.К.

 

Жәңгір хан атындағы Батыс-Қазақстан аграрлық-техникалық университеті

 

Cемантикалық анализ деңгейіне шығу кезіндегі машиналық аударма жүйесінің сапасын жоғарылату

 

Машиналық аударманың қажеттілігіне бірнеше тілдегі ақпарат ағымының қарқындап өсуі және ғылыми-техникалық прогресске қатысты әлеуметтік себептер негіз болды. Осыған байланысты машиналық аударма жұмысының даму барысына қатысты аударма мәселесінің шешімін табу және оның ұтымды жолдарын іздестіру қажеттілігі туындайды. Бұған ең алдымен аудармашының тілдік қызметінің ерекшеліктері ішінен шеттілдік мәтіннің құрылымын зерттеудегі таза формалды талдау жолын жатқызуға болады. Атап айтқанда, аудармашыға мәтіннің грамматикасы және лексиканың көмекші сөздері мен есімдік сөздері және басқа да осы сияқты функционалды грамматиканың элементтері белгілі болғанымен, салалық мәтіннің арнайы лексикасы таныс болмауы мүмкін.

Шеттілдік мәтінді аударудағы оның тұрпаты бойынша мән-мағынаны ашу ерекшеліктерін модельдеу, ең алдымен, аудармашының іс-әрекетін зерттеу нысаны ретінде алуға бірден-бір себепші болды. Қазақ тіліне аударма жасаған кезде, қазақ тілі мен ағылшын тілі бір бірінен тіпті морфологиялық жағынан елеулі деңгейде өзгеше екенін ескеру қажет. Негізінен қазақ тіліне аудару­дың стандартты талаптары бар, ол дәстүрлі түрде үш негізгі этап бойынша жүреді: қолдану аймағын анықтау, мәтінді қарастыру; құжатты кезекпен кезек аударылатын жеке мағыналық бөліктерге бөліп тастау; дайын мәтінді ақырғы өңдеу.

Қазіргі таңда елімізде іске асқан ағылшын - қазақ тілі аудармашылары көп. Олар онлайн режимінде жұмыс жасайды. Солардың ішінде негізгілері өз елімізден Google аудармашы және Pragma 6 өнімі.

Google аудармашы – мәтінді немесе веб-беттерді басқа тілге автоматты түрде аударуға арналған Google веб компаниясы. Кейбір тілдерді қолданушыларға аударма нұсқалары ұсынады.

Systran технологиясын қолданатын басқа аударма жүйелерінен айырмашылығы Google өзінің бағдарламасын қолданады. 2017 жылдың наурыз айында Google аударма сапасын жаксатру үшін аударма жүйесін нейролық жүйеге ауыстырды. Google аудармашы басқа басқа автоматтандырылған аударма құралдары сияқты өзінің шектеулері бар. Бұл құрал оқырмандарға мәтіннің шет тілінде жалпы мағынасын түсінуге көмектеседі, бірақ нақты аудармасын бермейді. Әрқашан аударманың сапасына көңіл бөледі және басқа тілдерге аудару алгоритмін құрады. Google аудармашы мәтінді 103 тілде аудара алады.

Google аудармашы аударма бағдарламасының терезесі

Prаgma 6x- Trident Software украиналық компаниясы шығарған машиналық аударма бағдарламасы. Ол ағылшын, латын, неміс, украин, орыс және қазақ тілдерінің арасында аударуға арналған бағдарлама. Аудармашы 50 тақырыпта және 56 бағытта аудара алады.

Prаgma 6x аударма бағдарламасының терезесі

Бағдарлама келесі операциялық жүйелер басқармасымен жұмыс жасайды:

1.       Windows XP\Vista\7

2.       Windaws Server 2003\2008

3.       Мәтіндегі кез келген сөйлемдерді «тез аудару» функциясы арқала аударуға мүмкіндігі бар.

http://www.trident.com.ua/ru/on-line бағдарламаның барлық функциясы сақталған онлайн нұсқасы бар [2].

Prаgma бағдарламасының онлайн нұсқасы

Ағылшын тілінен қазақ тіліне машиналық аударудың алгоритмі 

Алдымен мәтінді талдау үшін құраушылар грамматикасын пайдаланамыз.

Құраушылар грамматикасы кез келген күрделі бірлік екі немесе одан да көп жай және бір бірімен қиылыспайтын бірліктерден құралады деген тұжырымға негізделген. Олар тәуелсіз құраушылар деп аталады.

Құраушылар – сөйлем құрамындағы құрылымдық бірліктер (қиықтар). Олар толығымен өлшемі бойынша өзінен кіші және бір бірімен тығыз байланысқан бірліктерден құралады. Құраушы құрамындағы сөз саны бірден көбейсе, ол топқа айналады.

        Енгізілетін тіл                                                     Шығатын тіл

 

 

 

 

 

 

 

 

 

 

 


Синтаксистік талдау үшін таңдалған әдіс

Топты сипаттайтын тәуелділік тармағының діңгегіне жақын сөз топтың шыңы болады. 

Топтардың классификациясы: 

1.       Атаулы топ (noun phrase-NP) 

2.       Сын есім тобы (adjectival phrase-Adj.P) 

3.       Үстеу тобы (adverbial phrase-Adv.P) 

4.       Септік топ (prepositional phrase-PP) 

5.       Етістік тобы (verb phrase-VP) 

6.       сөйлем (sentence-S) 

Ақырғы мәтінді алу үшін сөйлемнің сәйкес құрылымдар кестесін (сұлбалар) пайдалану керек.

Машиналық аударма бір ғана сөздің аудармасын қарастырмайды, ол енгізілген және шығатын тілдің грамматикалық, синтаксистік және басқа да ерекшеліктерін ескереді. Оның статистикалық, алгоритм мен ережелерге негізделген және гибридті түрлері бар.

Алгоритмдерге негізделген аударма мәтінге жан жақты талдау жасайды: морфологиялық, синтаксистік. Соңғы сатыда программа дайын мәтінде сөйлемге талдау жасайды. Аудармашы қызметтерін ұсынатын тұлға да көлемі мен құрылымына қарай осындай жұмыс жасайды. Статистикалық машиналық аударма сөздердің мәліметтер қорына талдау жасау арқылы іске асады. Бұл әдісте аударманың сапасына әсерін тигізетін грамматикалық құраушылар ескерілмейді. Алдымен грамматикалық алгоритмдердің сапасын арттыру керек [2].

Тілдердің морфологиялық және сөздердің құрылу негізгі ережелерін ескере отырып, келесі түрде жазуға болады:

<сөздердің грамматикалық формасы>::=<сөз><грамматикасы>

<грамматика>::=<жұрнақ>/<жалғау>/<...>

<сөз>::=<зат есім>/<сын есім>/<...>

Қазақ тілінде алдымен түбірге жұрнақ, содан соң жалғау жалғанады [1].

Лексико-грамматикалық талдау алгоритмінде енгізілген мәтін сөйлемдерге бөлінеді, бөлінген сөйлемдердің лексикасы мен тыныс белгілерін анықтап, мәтінді аударады.

Лексико- грамматикалық талдау алгоритмі

Мәтіннің сөйлемдерге бөліну

 

Басы

Енгізілген мәтін

 
 

 

 

 

 

 

 

 


Сематикалық, синтаксистік және лексикалық модулдері енгізілген мәтіннің әрбір модулінің ережелері ескеріле отырып аударылады [2].

Қазіргі таңда ағылшын тілінен қазақ тіліне сөйлем бойынша аударатын бағдарламалар, сайттар және басқа да қосымшалар әліде болса түзетулерді талап етеді. Аударма барысында кейбір сөздер дұрыс аударылмайды. Көп мәнді сөздер аудармасы тіпті ескерілмейді. Осыған орай көп мәнді сөздердің дұрыс аударылуына көп мән беру керек.

Әрбір тілдің өз ерекшеліктеріне байланысты лексикалық таңдау есебі әр түрлі ауқымда болады.

MySQL программасында мәліметтер қоры

Ағылшын-қазақ тіл жұптары бір-бірінен алшақ болғандықтан лексикалық таңдау күрделі мәселеге айналады. Себебі көп мәнді сөздің дұрыс аударылуы аударма сапасына және аударма мағынасына тікелей әсер етеді, оның барлық аудармасы болуы үшін паралельді корпус қажет, сонымен қатар оның аудармасының бірнеше сөйлемдерде кездесуі аударма сапасының жақсаруына әсер етеді.

MySQL программасында мәліметтер қоры

 

Қолданылған әдебиеттер

1.            Т.А. Рачко. Морфемный и словообразовательный разбор слова. 2007

2.            Кузнецов И.П., Сомин Н.В. Особенности лексико-морфологического анализа при извлечении информационных объектов и связей из текстов естественного языка. 2010.