Институт языкознания им А.Байтурсынова

К.ф.н. А.Аманбаева

СӨЙЛЕНІМ СИНТЕЗІНІҢ ЗЕРТТЕЛУ ТАРИХЫ

 

Сөйленім синтезі – бұл мәтінді сөйлеу сигналдары арқылы жүзеге асыру, яғни мәтінді сөйлету деген сөз. Сөйлеу синтезі синтезатордың көмегімен жүзеге асады. Ал сөйлеу синтезаторы белгілі бір бағдарламаның көмегімен мәтінді сөйлете алады. Ал сол  синтезаторда дауыстау қондырғысы (голосовой движок)  болады, ол компьютерден тыс әрекет етеді.

Сөйленім синтезінің тарихи бастауы сонау Х ғасырдан басталады. Сол кезеңде Герберт Аврилакс бронзадан адамның басын жасап, сұрақ қойған адамға иә және жоқ деген сөзді айта алатындай жағдайға келтіру үшін әрекет жасаған екен, сонан соң ХІІІ ғасырдың ортасында монах Альберт фон Больштедт пен ағылшын философы Роджер Бэкон «сөйлейтін бас» үлгісін жасауға кіріседі. Бұл әрине техниканың әлі дамымаған кезіндегі сөз синтезін жасауға деген алғашқы қадам болатын.

ХVIII ғасырдың соңында неміс ғалымы Христиан Кратценштейн ең алғашқы болып адамның сөйлеуі арқылы жүзеге асатын бес созылыңқы дауысты дыбыстың (а, э, и, о, у) моделін жасайды. Бұл модель арқылы дауысты дыбыстардың тербелісіне қарай акустикалық резонатор жүйесінің әртүрлі формалары пайда болады. Сол кезеңде «сөйлейтін» машина идеясының авторы ретінде Санкт-Петербург университетінің ғалымы Х.Кратценштейнге арнайы Ресей академиясының атынан сыйлық тағайындалады. Сонан соң 1788 жылы австрия ғалымы Вольфганг фон Кампелен Кратценштейннің жұмысын әрі қарай жалғастырып, ерін мен тілдің моделін құрып, белгілі бір дыбыстарды айта алатын акустика-механикалық сөйлейтін машинаны ойлап табады. Сөйлейтін машина төртбұрышты ағаштан жасалған, ұзындығы шамамен 1 метр, ені жарты метрден, сырты былғарымен қапталған машинаның ішкі жүйесі күрделі клапандардан тұрып, 3-4 жастағы баланың дауысында сөйлейтін болған. Сонан соң 1837 жылы ғалым Чарльз Уитстоун дауысты және дауыссыз дыбыстарды айта алатын машинаның оңтайланған түрін көрсетсе, ал 1846 жылы  Джезеф Фабер тек қана сөйленімді ғана синтездеп қана қоймай, ән айтуға да синтез жасауға болады деген тоқтамға келеді.

ХІХ ғасырдың соңында танымал ғалым Александр Белл Уитстоунның құрастырған машинасына ұқсайтын өзіндік «сөйлейтін» механикалық машинаның моделі пайда болса, ХХ ғасырда электрондық машина заманы басталып, ғалымдар дыбыс толқынын шығаратын генераторды қолдануға мүмкіндік алады және алгоритмдік модельді құруға әрекет жасай бастайды. ХХ ғасырдың 1930 жылы Хомер Дадли пернетақтаның көмегімен басқарылатын  VOCODER (ағылш. voice – дауыс, ағылш. coder – кодтаушы) құрылғысын шығарады. Ең алғашқы сөйленім синтезаторы фразалық түрде жасанды болып шығады. Сонан кейінгі сөйленім синтезаторларының сапасы бірте-бірте дамып, яғни тәжірибелер жасау арқылы жасанды сөйленім синтезінен табиғи сөйленім синтезіне бейімделіп жасалып отырады. Сөйтіп Хомер Дадли жасаған VOCODER-дің оңтайлы варианты VODER деген атпен 1939 жылы Нью-Йоркта өткен әлемдік көрмеде көрсетіледі.

Ең алғашқы есептеуіш техниканың көмегімен жасалған сөйленім синтезінің жүйесі 1950 жылдың соңына қарай пайда болып, алғашқы «мәтіннен сөйлеуге» синтезаторы 1968 жылы құрылады. 1950 жылдардың ортасында пайда болған есептеуіш машина автоматты түрде сөйленім синтезін жасауға тікелей ықпал етті. Компьютер жадында сақталған акустикалық сандық үлгілердің  әртүрлі көрінісі мен оған талдау жасаудың әдістері сандық сөйлеу сигналдары арқылы жұмыс істеуге мүмкіндік береді. Сондай-ақ жылдан жылға компьютер техникасының дамуына байланысты синтезделген сөйленімнің акустикалық үлгілерін сақтау үшін компьютер жады ықшамдала түседі.  

 

 

 

 

 

 

 


«Мәтін-Сөйленім» синтезаторының сызбасы

 

Просодикалық параметрлер ережесі

 
 

 

 


«Мәтін-Сөйленім» синтезаторының сызбасы

1960 жылдың басында сөйленім акустикалық тұрғыдан қарастырылып, оның теориясы зерттелгенде, автоматтандырылған сөйленім синтезі екі түрлі бағытта жұмыс істеді: артикуляциялық және акустикалық синтез. Артикуляциялық синтез алғаш рет механикалық синтезатордың көмегімен жасалған болса, ал акустикалық синтез әртүрлі электрондық синтезатордың көмегімен жүзеге асқан. Ең алғашқы синтезатордың табиғилығы төмен болып, ол бірте-бірте техниканың дамуына байланысты дамып отырады.

Сөйленім синтезі мәселесі тілшілер оның ішінде фонетистердің және техника мамандарының көмегімен жасалады. Өйткені дыбысқа қатысты әсіресе сөйлеудің акустика-артикуляциялық базасын, яғни дыбыс, буын, сөз, сөйлем, сөйленімге дейінгі аралықтағы процесті фонетистер жасайтын болса, оның әрі қарайғы жұмысы техникалық қондырғылар арқылы жүзеге асатындығы анық.

Жалпы тіл білімінде 1980 жылдан бастап техниканың жетістіктеріне байланысты сөйленім синтезіне арналған әртүрлі эксперименттік зерттеулер жасала бастайды.

ХХ ғасырдың соңында шамамен 80-жылдары Ресейдің жоғарғы оқу орындарының фонетика кафедрасында автоматты түрде мәтінді сөйлетуге байланысты зерттеулер жүргізіле бастап, 1989 жылы орыс тілінде алғашқы 1-ден 100-ге дейін санайтын компилятивті синтездің үлгісі жасалады, ол Киевтегі Кибернетика институтының Т.К.Винцюк зертханасында алғаш рет көрсетіледі. Оның сапасы да, табиғилығы да сол кезең үшін жоғарғы деңгейде болатын. Сонан соң орыс тіл білімінде 1990 жылдың басында ашық буындарға синтез жасала бастайды. Сондай-ақ, 1990 жылдың ортасында ғалымдар өнеркәсіп салаларында синтез жасауды бастап, тәжірибе жасайды. Халқаралық компьютер желісіндегі интернет жүйесінде сөйлеу технологиясының соңғы жетістіктері беріліп отырады.

1993 жылы орыс тіліндегі мәтінге компилятивті синтез жасау жұмысы қолға алынады, проф. Л.В.Бондарконың жетекшілігімен диссертациялық жұмыс қорғалады. 1994-1996 жылдар аралығында орыс тілінің сөйленімі дифондық және аллофондық синтез жүйесі арқылы зерттеледі. Сөйлеу синтезін дамыту үшін сөйлеу сигналдарын сандық өңдеуден өткізудің тиімді жолдары қарастырылады да ғылымның салаларында яғни, лингвистика, фонетика, сөйлеу мен қабылдау физиологиясында жүзеге асырылады.

Компьютердің қазіргі таңдағы жетістіктері компьютер технологиясын дамытуға, сөйлеу техникасын жақсартуға, сөз синтезін жасауға негізделіп отыр. Әсіресе автоматты сөйленім синтезі мен автоматты сөйленімді тану синтезі  жаңа технологияның көмегімен жүзеге асары анық. Қазір технология заманы болғандықтан, әлемде технологиялық прогресс жылдам дамуда және техниканы сөйлету ісі де осыған бағытталып отыр. Оны ғалымдардың зерттеулерінен байқаймыз. Осы жайында С.В.Кодзасов, О.Ф.Кривнова: «За последние 10–15 лет произошли заметные изменения в компьютерных технологиях синтеза и распознавания речи, обусловленные постоянно растущими возможностями компьютерной техники, совершенствованием математического аппарата и более глубоким пониманием реальных процессов порождения и понимания речи человеком» – деген ой айтады[1].

Қазіргі таңда шет тілі мен орыс тіл білімінде сөйленім синтезін автоматтандыру жайындағы еңбектер мен сөйленім синтезіне арналған зерттеулер баршылық. Алайда  қазақ тіл білімінде зерттеулер өте аз. Әсіресе лингвистикалық жағынан мәтінді өңдеу жағынан кейбір мәселелерлі шешу қиынға соғып отыр. Және де компьютер жазбалары арқылы жанды дауысты жазып, әртүрлі диапазондағы эмоционалды реңтерін анықтау жұмыстары да зерттеуді қажет етеді. Әсіресе сөйленім синтезін лингвистикалық тұрғыдан зерттеп, оны компьютер бағдарламасына бейімдеп беру қазіргі технологияның жетістігі болатындығы сөзсіз. Зерттеушілер үшін сөйленім синтезінің табиғи әрі сапалы шығуы маңызды болып табылады. 

 

Әдебиет

1.        С.В. Кодзасов, О.Ф. Кривнова "Общая фонетика" М., 2001.

2.        Методы автоматического распознавания речи / Под ред. А.У.Ли. М., 1983.

3.        Зиновьева Н.В. Система акустических ключей к распознаванию фонетических единиц русского языка // Экспериментальная фонетика. М., 1989.