Компьютерлік
лингвистика: Қазақ тілінің морфологиялық сөздігін
қалыптастыру.
Игенберлина
Айзат Еркиновна
«Болашақ» университеті, Қарағанды, Қазақстан
Морфологиялық деңгейдің бірлігі
ең кіші мағыналы бөлшек және мағына
қасиетіне ие тілдік жүйенің негізгі бірліктерінің бірі
– морфема болып табылады.
Морфема (гр. morphe –
түр, тұлға) – сөздің мағыналы ең кіші
бөлшегі. Ұғымға алғаш И.А.
Бодуэн де Куртене (1881) енгізген. [1:9]
Морфема іштей екіге
бөлінеді: негізгі морфема және қосымша
морфема. Негізгі морфемалар — лексикалық мағыналы дербес
қолданылатын түбір сөздер. Олар түпкі түбірлер (тір
- тірі дегендегі), түбір негіздер (тірі), туынды негіздер
(тірлік) болып үшке бөлінеді. Қосымша
морфемалар — дербес қолданылатын сөздерге әр
түрлі грамматикалық ғана мағына үстейтін
тұлғалар. Олар іштей қосымшалар мен қосалқылар болып
екіге бөлінеді. Қосымшалар: сөзжасам, сөзтүрлем, сөзбайлам тұлғалар.
Бұлардың сөзжасамы мен сөзтүрлемі -
жұрнақтар да, сөзбайламы - жалғаулар деп танылады.
Қосымшалар қатарына дәйек және аяқ
қосалқылар жатады. Дәйек қосалқылар түбір
сөздің алдына қосылып, сөзге грамматикалық
күшейтпе мағына үстейді (күшейтпе буынды: сап-сары,
қап-қара және күшейтпе сөзді өте
жақсы, тым жаман). Аяқ қосалқылар негізгі
сөздің соңында қолданылады да, оларға шектеме
және көмекші грамматикалық мағына үстейді.
Шектемелер сөзге ұқсама буын қосып айтылатын (шай-пай,
нан-пан) және демеуші шылаулар арқылы жұмсалатын (осы
ғана, осы-ақ) сөздер құрамында
қолданылады. Көмекшілер: көмекші есімдер (үсті, асты т.
б.), көмекші етістіктер ( еді, екен т. б.), септеулік
шылаулар (дейін, шейін т. б.), жалғаулық шылаулар (мен,
және, тағы т. б.). [2:124]
Морфология – сөзтұлғалардың
құрылымы мен түсінігін қамтамасыз ететін табиғи
тілдің бір бөлігі.
Сөз – заттарды, процестерді, қасиеттерді
белгілеу үшін қызмет ететін тілдің ең маңызды
құрылымдық-семантикалық бөлігі.
Құрылымдық жағынан алғанда сөз
морфемалардан құралады, олардан сөздің
айырмашылығы – оның дербестігі және сөйлемге
арналған құрылыс материалы болатындығы.
Сөзтұлға – нақты
грамматикалық тұлғадағы нақты сөзді
білдіретін термин.
Сөз түрлендіру – әрбір сөз үшін
(өзгермейтін сөз таптарына жататын сөздерден басқа)
оның парадигмасын, яғни оның барлық
сөзтұлғаларын және оның барлық
аналитикалық тұлғаларын қалыптастыру. Сөз
түрлендіру барысында сөздің (лексеманың) үйлесімділігі
бұзылмайды (яғни біз әр түрлі грамматикалық
тұлғалардағы бір сөзді көреміз).
Сөздік – бұл анықтамалары мен түсініктемелері
және басқа тілге аудармасы бар алфавиттік ретпен орналасқан
сөздер жиынтығы. Морфологиялық сөздік – бұл
сөздер мен олардың грамматикалық категорияларының
мәнінің және олардың қолданылуының
түсініктемесі берілетін сөздік.
Грамматикалық категория (гр. Kategoria - түсініктеме, анықтама) – бұл біртекті
грамматикалық мәндер жиынтығы: септіктер мәні септік
категориясына бірігеді; жекелеген шақ тұлғаларының
мәндері шақ категориясына бірігеді және т.б.
Грамматикалық категорияның грамматикалық мәнге
қатынасы жалпының жекеге қатынасындай. [3:15]
Қазақ тілінің компьютерлік лингвистикасын
қалыптастыру үшін ең алдымен, қазақ тілінде
әлі жасалмаған морфологиялық сөздікті
қалыптастыру аса маңызды болып табылады.
Елімізде қазақ тілін компьютерлендіру бағытында
жұмыс жасай бастаған коммерциялық IT-фирмалардың бірі
қазақ тілінің морфологиялық сөздігін былай
сипаттады:
Жүйе ресурстарында әрі қарайғы
синтаксистік талдау үшін мәтіндегі сөздердің
қалыпты тұлғасын, грамматикалық атрибуттарын Жүйе
дұрыс анықтауы үшін пайдаланылатын казақ тілінің
морфологиялық сөздігі жасалды. Қазақ тілінің
морфологиялық сөздігіне қажетті сөз таптары енгізілді,
сондай-ақ әрбір сөз табы бойынша сингармонизм заңын
есепке ала отырып, туындаған барлық сөз формалары енгізілді.
Морфология
модулі толыққанды жұмыс істеу үшін келесі
тәсілмен алынған қазақ тілінің барлық
сөзтұлғалары қажет:
-
Қалыпты тұлғалар автоматты түрде
сөздіктен алынды;
-
Әрбір қалыпты тұлға үшін
сөз табына байланысты барлық сөзтұлғаларды
аффикстердің көмегімен автоматты түрде тудыру жүзеге
асырылды.
Морфологияны тудыру барысында 11 сөз табымен
жұмыс атқарылды:
1.
Зат
есім;
2.
Сын
есім;
3.
Сан
есім;
4.
Есімдік;
5.
Үстеу;
6.
Етістік;
7.
Есімше;
8.
Одағай;
9.
Септеулік;
10.
Демеулік;
11.
Жалғаулық.
!Компьютерлік бағдарламаға енгізуге, онымен
жұмыс істеуге жеңіл болуы үшін есімше етістіктен дербес бір
сөз табы ретінде қаралды. Шылаудың үш түрі
үш бөлек қаралды.
Кейбір сөз таптарын тудыру морфологиясының ережелерінен мысал
келтірейік:
Соңғы дыбыс фонетикасының 10 түрі
бөліп алынды (сөздің соңғы әрпінің
көрсетілген кластардың біріне тиесілілігі тексеріледі):
1.
дауыстылар
2.
л
3.
р
4.
у
й
5.
ж
з
6.
қатаң
дауыссыздар
7.
б
в г д
8.
м
н ң
9.
1-ші
немесе 2-ші жақтағы тәуелділік аффиксі қосылған *
10.
3-ші
жақтағы тәуелділік аффиксі немесе предикативті
тәуелділік қосылған *
*бұл екі класс тек
септік аффиксі тіркелген жағдайда ғана пайдаланылады
Сондай-ақ
дауыстылар фонетикасының 2 түрі бөлінді: сөздің
соңынан іздеу көмегімен анықталады:
жуан
- АОҰЫЭЯУ
жіңішке
- ӘӨҮІЕИ
Дауыстылар
фонетикасы сөздің қалыпты тұлғасы үшін бір
рет анықталады да бүкіл парадигманы
тудыру барысында сақталады.
Соңғы дыбыс фонетикасы алдымен қалыпты
тұлға үшін, одан кейін әрбір аффиксті тіркегеннен кейін
анықталады, себебі аффикс, әрине, сөзге басқа
соңғы дыбысты тіркейді. (мысалы: СТУДЕНТ – қатаң
дауыссызға аяқталады, студенттер үнді «р-ға»
аяқталады).
Аффикстердің
5 типі ажыратылып алынды:
1.
Көптеу;
2.
Тәуелдеу;
3.
Предикативті
тәуелдеу;
4.
Септеу;
5.
Жіктеу.
Көптеу, тәуелдеу, септеу, жіктеу
категориялары барлық лингвистерге белгілі қазақ тіліндегі
грамматикалық категориялар болса, предикативті тәуелдеу деп -нікі, -дікі, -тікі жалғаулары
аталды. Мысалы: кітап менікі, жер
мемлекеттікі.
Жүзеге асырылған жұмыстар
нәтижесінде, Жүйеге қалыптастырылған
морфологиялық сөздігімізде бар кез келген сөзді енгізген
кезде, сол сөздің қалыпты тұлғасы анықталып,
оның грамматикалық атрибуттары талданып шыға келеді.
Мәселен інімдікі, елбасының, үміттеріміз сөздерін
енгізіп көрейік.
Нәтижесі мынадай:
text="Інімдікі" normal-form="ІНІ"
pos-tag="N;Sg;my;Nom;poss2" speech-part="N"
number="Sg" posessive="my" case="Nom"
posessive2="poss2"/>
text="Елбасының" normal-form="ЕЛБАСЫ"
pos-tag="N;Sg;Gen" speech-part="N"
number="Sg" case="Gen"/>
text="Үміттеріміз"
normal-form="ҮМІТ" pos-tag="N;Pl;our"
speech-part="N" number="Pl" posessive="our"/>
Мұндағы:
N – зат есім
Sg – жекеше түрде
My – тәуелдік жалғаудың жекеше
түрінің бірінші жағы
Nom – атау септік
poss2 – предикатты тәуелдеу (нікі, дікі, тікі)
Gen – ілік септік
Pl – көпше түрде
Our – тәуелдік жалғаудың көпше
түрінің бірінші жағы
Сын есімдердің морфологиялық сөздігін
тудыру алгоритмі:
1.
негіз + рақ/рек, ырақ/ірек
жұрнағы = салыстырмалы үлкен шырай
Мысалы: ҚЫЗЫЛ+ЫРАҚ, ШИКІ+РЕК.
2.
негіз + дау/деу, тау/теу, лау/леу жұрнағы =
салыстырмалы кіші шырай
Мысалы: ҚЫЗЫЛ+ДАУ, ШИКІ+ЛЕУ.
!Салыстырмалы
шырайларды «үлкен» немесе «кіші» деп бөлуіміз шартты, салыстырмалы
шырайдың екі түрін өзара ажырату үшін жасалған
атаулар деп түсіну керек.
3.
Бірінші буынның қайталануы + "п"
әрпі + дефис + негіз = күшейтпелі шырай.
-
егер бірінші буындағы дауысты дыбыс У болса, онда
префикстегі дауысты Ұ-мен ауыстырылады.
-
егер бірінші буындағы дауысты дыбыс И болса, онда
префикстегі дауысты І-мен ауыстырылады.
Мысалы: ҚЫП-ҚЫЗЫЛ, СҰП-СУЫҚ,
ШІП-ШИКІ.
Сын есімдердің тұлға қалыптастыру
алгоритмі: шырай категориясы қосылады (рак, дау, префикс), одан кейін
жіктік жалғаулар қосылады. Сан есімнің көптелуі, септелуі және
тәуелденуі тек субстантивтенген жағдайларда ғана іске асатын
құбылыс. Сөз таптарының субстантивтенуі Жүйеде бөлек
қарастырылатын болады.
text="Жақынырақсың"
normal-form="ЖАҚЫН" pos-tag="A;you;More"
speech-part="A" personal="you" degree="More"/>
text="Өзгешелеусіңдер"
normal-form="ӨЗГЕШЕ" pos-tag="A;yous;Less"
speech-part="A" personal="yous"
degree="Less"/>
text="Сұп-суық"
normal-form="СУЫҚ" pos-tag="A;he-they;Super"
speech-part="A" personal="he-they" degree="Super"/>
Мұндағы:
A – сын есім
You – жіктік жалғауының жекеше
түрінің екінші жағы
More – салыстырмалы үлкен шырай
Yous – жіктік жалғауының көпше
түрінің екінші жағы
Less – салыстырмалы кіші шырай
he-they – жіктік жалғауының үшінші
жағы
Super – күшейтпелі шырай
Сан есімдердің
морфологиялық сөздігін құру алгоритмі:
1.
Есептік
сан есімдер: бір, екі, он.
2.
Реттік
сан есімдер: негіз + ыншы/інші/ншы/нші. Мысалы: бір+інші, екі+нші, он+ыншы.
3.
Жинақтық
сан есімдер: негіз + ау/еу. Бұл сан есімдер жетеу ғана, бірден жеті
санына дейін. Дауысты дыбысқа аяқталатын негізге
қосылған кезде, негіз соңындағы дауысты түсіп
қалады. Мысалы: бір+еу, ек+еу, алт+ау, жет+еу.
4.
Болжалдық
сан есімдер: негіз+даған/деген. Олар тек мына сан есімдерден жасалады:
он, жүз, мың, миллион, миллиард. Мысалы: он+даған.
Сан
есімдердің тұлға тудыру алгоритмі:
Есептік
сан есімдер мына жалғауларды қабылдайды:
-
Көптік
жалғауы;
-
Септік
жалғауы;
-
Тәуелдік
жалғауының тек үшінші жағы;
-
Тәуелденген
түрдегі септеу;
-
Көпше
септеу;
-
Тәуелденген
түрдегі көпше септеу.
Көптік
жалғаулар:
АЛТЫЛАР { SpeechPart = "Num",
NumType = "Approximate", Case = "Nom" }
! Есептік сан есімге көптік жалғауы жалғанған кезде ол болжалдық сан есімге айналады.
!Сан
есімдер жіктік жалғауларын, тәуелдік
жалғауларын, көптік жалғауларын және септік жалғауларын қабылдайтын барлық басқа жағдайлар – бұл
субстантивтенген сан есімдер.
!Бірнеше сан есімнің
бірігуі және қосарлануы арқылы жасалатын сан есім
түрлері морфологиялық сөздікке кірмейді. Олар басқа
тәсілмен жасалатын болады.
text="Тоғызыншысыздар" normal-form="ТОҒЫЗ"
pos-tag="Num;Pl;Ins;Yous;Ordinal" speech-part="Num"
number="Pl" case="Ins" personal="Yous"
num-type="Ordinal"/>
text="Алтаумыз" normal-form="АЛТЫ"
pos-tag="Num;Sg;we;Collective" speech-part="Num"
number="Sg" personal="we"
num-type="Collective"/>
text="Бірлерде" normal-form="БІР"
pos-tag="Num;Pl;Loc;Approximate" speech-part="Num"
number="Pl" case="Loc"
num-type="Approximate"/>
text="Бесіне" normal-form="БЕС"
pos-tag="Num;Sg;his;their;Dat;Cardinal" speech-part="Num"
number="Sg" posessive="his;their" case="Dat"
num-type="Cardinal"/>
Мұндағы:
Num – сан есім
Pl – көпше түрде
Ins – шығыс септік
Yous – жіктік жалғауының екінші жағының сыпайы
түрі
Ordinal – реттік сан есім
Loc – жатыс септік
Approximate – болжалдық сан есім
Sg – жекеше түрде
We – жіктік жалғауының көпше түрінің бірінші
жағы
Collective – жинақтық сан есім
his-their – тәуелдік жалғауының үшінші жағы
Dat – барыс септік
Cardinal – есептік сан есім
Қазақ тілінің сөз тудыру
қабілеті өте бай. Морфологиялық сөздікке кірмеген
сөздер мәтінде жиі кездеседі: ол басқа тілдерден енген
сөздер немесе ерекше грамматикалық формада пайдаланылатын
қазақ тілінің сөздері. Олардың морфологиялық
сөздікте жоқтығына қарамастан, Сөздерді
суффикстер негізінде тану модулінде осындай сөздердің
грамматикалық формаларын дұрыс тану мүмкіндігі жүзеге
асырылады. Осының арқасында сөйлемге одан әрі
дұрыс синтаксистік және сентименттік талдау жасау мүмкін
болады. Мысалы, «магистрдың» сөзін алайық. Берілген
сөзді талдау барысында ілік септігінің жалғауы танылады
және жалғаудың арқасында субстантив деп танылатын
түбір айрықшаланады. Сәйкесінше, ол сөйлемде
анықтауыш болып талданады.
Осы морфологиялық сөздіктің
көмегімен синтаксис, одан кейін семантика қалыптастырылады.
Әрине бұл морфологиялық сөздікте әлі шешімін
таппаған мәселелер, күмән тудыратын, нақтылауды
қажет ететін жерлер бар. Жүйемен жұмыс істеу барысында
морфологиялық сөздік біртіндеп жетілдіріліп отырады.
Пайдаланылған
әдебиеттер:
1.
“Қазақстан”: Ұлттық энцклопедия, Алматы:
«Қазақ энциклопедиясы», 1998, 123б;
2.
Қазақ тілі. Энциклопедия. Алматы: Қазақстан Республикасы Білім, мәдениет және
денсаулық сақтау министрлігі, Қазақстан даму институты,
1998 ж., 509б;
3.
Шемякин Ю.И. Начала компьютерной лингвистики: оқу құралы.
– Москва: МГОУ, А/О Росвузнаука, 1992, 79б.