Филологиялық білімді ақпараттандырудығы лингвистикалық автоматтарды  жасаудың маңызы

Оспанова Баянды Рамазанқызы

ф.ғ.к., доцент,

Абай атындағы ҚазҰПУ  «Әдебиеттану және тіл білімі  ҒЗИ»

baian_80@mail.ru

 

Лингвистикалық автоматтарды (ЛА) жасаудың басты қағидасы әмбебап компьютерлердің табиғатына жатады, демек ақпараттық мәтінді өңдеудегі арнайы жүйелердің шегіндегі осындай автоматтардың қызмет ету мүмкіндіктері әрқашан қарастырылатын. Дербес компьютерді жаппай пайдалануға көшу ЛА ерекше амалды талап етті, өйткені дербес компьютер белгілі бір пайдаланушыға өзінің  жекe  «ақпараттық орталығын» ұйымдастыруға мүмкіндік берді, бұл дегеніміз мәтінді өңдеу қызметінің ерекшеліктерін жеткізу. Бұл жағдайда пайдаланушы ЛА қызмет етуі мен мүмкіндіктерін , жалпы белгілі бір қызметтерді жүзеге асырудың шарттарын аңғаруы қажет. Бұл бағытқа бақылаушы, тестілеуші және өздігінен оқытушы лингвистикалық автоматтардың міндеттерін жасау жатады. Бұл міндеттердің өте күрделі екендігін атап өткен жөн, себебі табиғи тілдегі тосын диалогты моделдеуді талап етеді, сонымен қатар табиғи тілдің күрделі талдау жүйесін және түсіну қажеттіліктерін анықтайды. Бүгінде компьютердің көмегімен оқытатын жүйелерді модельдеудің атқарымдарын және қызмет түрлерін анықтау тұжырымы айқындалады.

ЛА құру барысында белгілі бір лингвистикалық және кибернетикалық ұстанымдар сақталуы қажет:

·                       ЛА қызметінің адами-машиналық ұстанымы, бұның негізінде адамның лингвистикалық іс-әрекетінің толығымен ЛА өңдеу қажеттілігі жатады; ЛА жобалау барысындағы ұмтылу автомат қызметінің деңгейінің шегі болып табылады; ЛА түрлендіру және өңдеу барысында адам ақыл-ойының түрлі семантикалық қызметтері қарапайым әркеттен күрделі әрекетке берілуі қажет.

 Бұл ұстанымды сақтау ЛА өңдеудің екінші ұстанымын сақтау қажеттілігін анықтайды;

·                       ЛА құрылымының үлгішендік ұстанымы. Кез келген ЛА үлгісі қарапайым топтамалы модульдердің композицисын білдіреді. Осындай қызмет барысында автоматтың нұсқасының үйлесімділігі, яғни шешу міндеттері жағынан және олардың құрылымдылығы мен қызмет ету деңгейлерінің күделілігі жағынан әртүрлі тәсілдер қамтамасыз етіледі. Осы ұстанымдарды сақтау белгілі бір модульдерді шығару және қосымша модульдерді қосу қажеттіліктеріне мүмкіндіктер береді. Ашық білім беру жүйесінде міндеттерді шешу шартында заманауи кәсіби дайындаушы технологияларды өңдеуде лингвистикалық автоматтың модульдік құрылымы кез келген талдаудың деңгейінде нәтижені алуға мүмкіндік береді;

·                       ЛА жүйесінің ашық ұстанымы. Жоғарыда аталған екі ұстаныммен байланысты, демек барлық жүйе жаңа модульдердің қосылуы арқасында ғана емес, сонымен қатар сол аталмыш модульдер өздігінен көбейіп және жаңалануы мүмкін.

ЛА құрылымына кіретін жеке жүйелерді енгізу және өңдеу тәжірибиесі көрсеткендей, ЛА жобалаудың жалпы амалымен технологияны нақты бір өңдеумен байланысқан негізгі үш ұстанымды  анықтауға  мүмкіндік  берді:

1      барлық жүйелерді мен модульдерді модульді-сатылы  ұйымдастыру;

2      базалық модульдерді, мәселелі бағыттағы модульдерді және мәтіндердің ерекшеліктеріне, яғни лингвистикалық және бағдарламалық қамтамасыз етуге бағытталған модульдерді бөлу;

3      мәтінді қайта өзгертудің негізі әдісі ретінде трансферді қолдану.

Мұндай лингвистикалық тәсiлдiң негiзгi ойы МАӨ жалпы үдерісінде өзара байланысты iшкi үдерістерін топтарының бөлуiнде тұрады. Бұл бөлу мынадай жолмен жүзеге асуы керек, яғни iшкi үдерістердің өзара әсерi әр түрлi сыртқы деректерге тұрақты белгiлi жүйені қамтамасыз етуі керек және бiр мезгiлде ашық модулдiк құрылымды сақтауға рұқсат беруi қажет. Әр түрлi лингвистикалық мiндеттердi және ЛА нақты бір мақсаттарға бағытталуын шешкенде модульдердің жинағының өзгеруі жалпы жүйенiң икемдiлiгi негiзiнде оның өзегiн сақтауды қамтамасыз етiлуіне рұқсат бередi. Сондықтан ЛА жобалауда және модульдердің әмбебап топтамасын құрастырумен дамытуда ерекше мәнге ие.

Лингвистикалық және бағдарламалық қамтамасыз ету туралы айтқанда, оның ескеріп өтетін кызметтерін атап өткен жөн:

·                       жүйені қолданушыларындың қажеттiлiктері (жедел ақпарат, анықтамалық ақпарат, тапсырыс бойынша фотографиялық ақпарат алу, сигналдық немесе терiп-түзетумен жоғары сапалы аударма, тiлге үйрету, тестiлеу, оқытатын тiзбекпен басқару және тағы басқалар);

·                       ақпараттық ағымның ерекшелiктері (жеке мәтіндердің және олардың ағымдарының көлемі мен түрлері, «достық» қарым-қатынас мүмкіндіктері, кіру тілдерінің түрлері, алдын ала-, өзара- немесе кейін- редакциялау);

·                       нақты пәндiк аймақтың (ПА) терминологияның және мәтiндердiң грамматикасының ерекшеліктері;

·                       өңделетiн тiлдердiң типологиясы.

Дегенмен, ЛА орталық модулі, және МАӨ кез-келген басқа жүйесі білімдер мен мәліметтердің лингвистикалық ақпараттық қоры (ЛАҚ) болып табылады және нысандырылған фонемалық, кіру және шығу тілдерінің синтаксисінің, морфологиясының, сонымен қатар өңделіп жатқан пәндік аймақтың семантикасының құрылымнан тұруы қажет. Сонымен қатар мәтіннің немесе дыбысты сөзді кіру талдауын жүзеге асыратын бағдарламалық және ЛАҚ арасындағы интерфейс қамтамасыз етілуі қажет. Аталмыш міндеттерді қорыта келгенде, ЛАҚ келесі құрылымдардан тұрады:

·                       кіру тілдерінің деңгейіндегі, яғни осы тілдердің лексикалық, фонемалық құрамын , сонымен қатар талдау тәртібін сипаттайтын лингвистикалық құзыреттіліктің (ЛҚ) топтамасы;

·                       шығу тілдерінің, яғни оның лексикасы мен грамматикасының сипаттамасы және синтездеу тәртібінен тұратын тіл деңгейіндегі лингвистикалық құзыреттіліктің (ЛҚ) топтамасы;

·                       ПА туралы экстралингвистикалық ақпарат орын алатын дерексөздiк;

·                       талдау тәртібі, трансфер және синтездеу жүзеге асатын лексикалық, грамматикалық және бағдарламалық модульдердің лексикалық және грамматикалық ақпарат және талдаудың автоматты сөздiк қоймасының арасындағы интерфейсті жүзеге асыратын грамматикалық кестелер;

ЛАҚ және ЛА құрамы модулдiк құрылымды ескередi. ЛАҚ қатты емес байланған топтамасының жинағы түрiнде жүзеге асырылады. Бұл модулдiк МАӨ міндеттерін сатылы, кезекпен шешуді қамтамасыз ете отырып, жеке топтамалардың дайындық деңгейіне және ақпараттардың қосарлануын жоюға қарай ЛАҚ тұтастыруға мүмкіндік береді.

Бүгінде ЛА әртүрлі нұсқаларының нақты немесе басқа деңгейде толық жүзеге асқаны туралы айта аламыз. Мысалы, соңғы мақсаты көптілді құжаттардың ағымынан қажетті ағылшын тіліндегі ақпаратты алу болып табылатын құжатты өтпелі түрде түсіну [1] үшін ЛА іске асырылған. Осы міндет аясында ЛА- да келесі қызметтер қарасытрылған:

·                       оптикалық айырып тану және тiлдi тану (сканерден құжаттарды енгiзу барысында) қызметі;

·                       мәтінге затбелгі «жабыстыру» яғни дереккөзі, алу мерзімі және атауы, мәліметтер қорында сақталуы туралы ақпаратты әрiпсандау қызметі;

·                       тақырыптаманы анықтау және оның пайдаланушының тапсырысына қарай құжатты тарату қызметі;

·                       толығымен автоматтандырған машиналық аударма қызметі;

·                       жүйенiң әр түрлi пайдаланушыларының одан әрi қарай  пайдалану үшiн машиналық аудармаларды жинақтау қызметі;

·                       ағылшын тiлiнде сұрау салулармен сәйкестiкте көп тiлдi көздерден ақпараттың элементтерiнен құралған ағылшын тіліндегі тапсырыстарға қарай кесте құруда бітімдесетін ақпараттық талдау қызметі [2].

Себебi ЛА қызметінің әртүрлi деңгейлер іздеу құралдарының арқасында іске асырылғандықтан, ЛА құрастыру ерекшеліктері туралы сұрақ нақты міндеттер үшін қағидалық жағынан ғана емес ғаламтор пайдаланушымен және басқа желілермен көрсетілген. Ол нақты қолданушыларды көзқарасы бойынша маңызды: ең жоғарғы жылдамдықпен, толықтықпен және дәлдікпен қажетті ақпаратты алу үшін, автоматты қайта өңдеу ерекшелiктерi туралы мәлімет олар үшін керек.

Кез келген диалогтiк адами-машиналық оқытушы жүйе ЛА нұсқасы ретінде қарастырыла алады. Сонымен қатар қолданбалы және қағидалық лингвистикада инженерлiк лингвистиканың дамуы сияқты ойларды және әдістерді байытуды алып келді, және оқыту ЛА өңдеу осылай одан әрi дамытудың және оқытатын тиiмдi әдiстердің дамуына себепші болып келеді. Атап айтқанда, дәл тілді оқытуда сыни болып табылатын талдау жүйелерiнің болу/жоқтығы және естiлетiн сөздi синтездеу (жинақтау).

Демек, (шетел ) ақпараттық – дидактикалық үдерістің ЛА сөйлеу толық құқықты қатысушысы ана тілге оқытудың қосалқы жүйелері келесі топтама-модульдерден тұрғанда ғана бола алады:

·       нақты дидактикалық міндеттерді орындауға  міндетті деңгейде сыртқы әлемнің  үлгісін  сипаттайтын топтама;

·       оқушымен байланыс жасайтын және оның білім деңгейін анықтайтын  жағдаятты танушы топтама;

·       әрбір нақты жағдайда  оқытудың кезектілігі бекітілетін шешім қабалдау топтамасы;

·       оқумен басқару қосалқы топтамасын міндетті құрам ретінде қосатын және алдында аталып өткен модульдердің қызметі негізінен таңдалып алынған дидактикалық тәсілді жүзеге асыратын оқыту топтамасы;

·       әрбір нақты жағдайда және т.б.  оқытудың жылдамдығы мен білім деңгейін анықтаушы тестілеу және диагностика топтамасы;

·       енгізілетін мәтінді «түсінуге» бағытталған, яғни  оның грамматикалық және семантикалық құрылымын талдау үшін, талап етілетін әрекетке деген дұрыстылық деңгейін анықтау үшін арналған енгізілетін мәтінді талдау үшін арналған құрылымдылық – нормативті топтама.

Шығу модулі болып ЛА кез келген қосалқы жүйесін құру барысында, сыртқы әлемді суреттеу болып табылады. Бірақ, егер басқа жағдайларда осындай модель (үлгі) оның белгісімен, яғни автоматтандырылған сөздіктер немесе дерексөздермен ғана шектелсе, онда қағидалық көзқарас бойынша тілді оқытуды қолдауда бізге үш  жеке улгілер қажет: білім үлгілері, мүмкін шешімдер қабылдау үлгілері және жағдаятты байланыс  үлгілері.

Оқыту автоматымен берілген оқыту кезектілігі өз алдында жоспар фреймін көрсетеді, аол сценарилер фремдерінің оңталы жүйесі түрінде іске асады. Демек, нақты сценарилерді әрбір жағдайда оқу үдерісінің ерекшелігінен анықталады. Сонымен, оқытушы ЛА үлгілеу мен шешу санақтық (статистикалық) сценарийлік фреймдермен шектелмеуі қажет.

        Әрбір нақты жағдайда таңдалып алынған автоматтандырылған жұмыс орынның қызметін «қарапайым» жүйелерден терминологиялық қорлардан (компьютердің және желілердің жадысында орналасқан бір және көптілді сөздіктерге, білім беру жүйелеріне, глоссарийлерге шығу мүмкіндіктері) күрделі жүйелерге дейінгі қызметтерді анықтайды, мысалы оларға машиналық аударма, пәндік аймақтарға арналған грамматиканың арнайы жүйелері және т.б. жатады. Сонымен қатар, АЖО мәліметтерді (құралдық  амалдар) ары қарай басылымға шығару жүйесін қарасытруы керек.

        Әртүрлі АЖО және мәтіндерді, әртүрлі сөздіктерді, тезаурустарды және глоссарийлерді жеке аудару мен өңдеу талдау көрсеткендей, жалпы педагогика және әдістеме шеңберінде, сонымен қатар лингвистика, әдебиеттану, шет тіліне оқыту әдістемесі салалары, әртүрлі пәндердің оқытушылардың, әсіресе филологтар, педагогтар мен әдіскерлердің талаптарына бағытталған жүйлердің жоқ екендігі анықталды.

Пайдаланылған әдебиеттер

 

1.                White J. S., О'Coanell Т. A, The ARPA МТ Evaluation Met Lessons, and Future Approaches // Pro­ceedings of the 1994 Confer. Machine Translation in the Americas (AMTA). 1996. 

2.                 Сонда 6 ,