Институт языкознания им А

Институт языкознания им А.Байтурсынова

К.ф.н.А.Аманбаева

АРТИКУЛЯТОРЛЫҚ ӘДІС АРҚЫЛЫ КӨРІНІС ТАБАТЫН СӨЙЛЕНІМ СИНТЕЗІНІҢ МОДЕЛІ

Сөйленім синтезінің алғашқы пайда болуы мен оның тарихына келер болсақ, ең алғашқы «сөйлейтін машина» яғни, механикалық синтезатор ХVIII ғасырда пайда болып, оның авторы Санкт-Петербург университетінің ғалымдары болатын. Ғалымдар сөйлеу кезіндегі дыбыстардың шығуына аса мән беріп, біршама жұмыстар атқарады.

Сөйленім синтезінің жүйесі сөйлеу сигналының генерациясы арқылы жүзеге асады. Соның негізінде негізгі – параметрлік және конкатенативтік бағыттары қалыптасқан. Сөйленімнің параметрлік синтез жүйесі екі тәсіл арқылы көрініс табады. Бірінші тәсіл адамның сөйлеу мүшелері арқылы көрініс табатын артикуляторлық синтезі болса, ал екіншісі қазіргі таңда өзіндік ережелері бойынша әзірленіп өңделген, көпшілікке таныс – формантты синтез ережелері [1].

Сөйленімнің форманттық синтезін іске асырудың көптеген әдістері бар. Олардың барлығы сөйленім фонемалары мен оның фонетикалық мүшеленуін жан-жақты білуге негізделеді және екі іргелі ұғымға сүйенеді: лингвистикалық – фонемалар және акустикалық – форманттар.

Фонема – тілде көрініс табатын негізгі дыбыстық бірлік. Әр тілдің өзіндік табиғатына байланысты дыбыс құрамы бар. Мәселен, ағылшын тілінде 20 дауысты, 24 дауыссыз болса, француз тілінде 15 дауысты, 20 дауыссыз бар, ал орыс тілінде 6 дауысты, 35 дауыссыз болса, қазақ тілінде 9 дауысты, 32 дауыссыз бар. Біз фонеманың мағына ажыратушылық бірлік екенін білеміз. Фонемалардан сөз, сөздердің тіркесімінен сөйленім құрылады.

Сөйленімнің акустикалық жүйесінің жиілік резонансы формантта көрінеді. Форманттың параметрі акустикалық жүйенің негізінде анықталады (негізгі тонның жиілігі, үдемелік). Әсіресе сөйлеу кезіндегі фармант жиілігі геометриялық белгілермен байланысты болады. Сөйлеу кезінде геометриялық белгілер ауысқан сайын ондағы формантты жиілік те өзгеріп отырады.

Сөйленімді ойдағыдай синтезі үшін, әдетте екі-төрт форманттық жиілік керек. Олар 200-ден (ер адам даусының бірінші формант) 2000 Гц-ке дейінгі диапазонды қамтиды (әйел даусының үшінші форманты) [2]. Дыбыс спектріндегі форманттық жиілік дәл орналасуы арқылы біз сөйленім деп түсінік беретін дыбысты анықтаймыз. Сөйленімде барлық форманттық жиіліктер бір мезгілде қатысады және айтылатын сөздің ерекшелігіне қарай жиілік спектрі үздіксіз жоғары-төмен жылжып отырады. Сондықтан, сөйлеп тұрған адамды тыңдай отырып, сіз қандай да бір жиіліктегі дыбысты емес, бірнеше обертонды естисіз, олар дауыс шығысында қалыптасатын импульстар сүзілген кезде пайда болады.

Формантты синтезатор сөйлеу кезінде бірнеше резонанс тудыру үшін сандық фильтрден өтіп толқын туындатып отырады.

Сөйленімді синтездеу үшін басындағы үш формантты модельдеу жеткілікті. Алайда ол сапалы шығу үшін төрт-бес формант қажет. Ал модельдеу үшін кейбіреуі жетінші формантты да қолданады. Әдетте негізгі тонның жиілігі, ұзақтылығы және формант деңгейі мен динамикасы, форманттау үшін қажет және ол екіполюсті резонатордың көмегімен моделденеді [3].

Жалпы тіл білімінде 60 жылдардың басында автоматты сөйлеу синтезі қалыптасып, сөйлеу теориясының акустикалық негізі құрылып, соның негізінде екі бағыт пайда болды: артикуляторлық және акустикалық синтез.

Артикуляторлық синтездің бастауы алғашқы механикалық синтезатордан басталып, жаңа бағытта жүзеге асады. Осы бағытта жұмыс істеу үшін артикуляция жайында ақпарат ала отырып, сөйлеу процесін моделдеу арқылы сөйлеу сигналдарын синтездеуге мүмкіндік туады. Бұндай ақпарат сөйлеу формасының сандақ көрсеткіші үшін және дыбысқа сипаттама беру үшін пайдаланылады. Сонан соң есептік деректер негізінде сөйлеу сигналы (сандық түрде) жасалады. Ол үшін акустикалық бағыттар аясында әзірленетін әдістер қолданылады [4]. Артикуляторлық тұрғыдан синтездеу үшін ең алдымен артикуляция жайында мәлімет ала отырып, сөйлеу әрекетінің модельдері арқылы сөйлеу сигналдарын синтездеуге болады. Яғни артикуляциялық тұрғыдан синтездеу үшін ең алдымен сөйленімнің моделдері арқылы сөйлеу сигналдарын синтездеуге әрекет жасалады.

Акустикалық синтез әрі қарай жалғасы ретінде басқа бағыттағы вокодерді құрумен басталып, түрлі типтегі электр синтезаторын құруға бағытталады. Осы бағыттағы зерттеудің артикуляторлық синтезден айырмашылығы әрқайсысының өзіндік міндетінің болуында. Яғни артикуляция акустикалық сөйлеу сигналдары арқылы байланысады. Қабылдауға жеңіл болу үшін синтезделген сөйлеу сигналдарына акустикалық тұрғыдан сипаттама бере отырып, табиғи сөйлеу үшін жұмыстар жүргізіледі. Сондай-ақ синтезделген акустикалық сөйлеу сигналдарын ойнату арқылы анықтауға болады.

Форманттарды сөйленімнің акустикалық жүйесіндегі жиіліктік резонанстары (берілу функциясының полюстері) ретінде түсінуге болады. Форманттардың параметрлері (жиілігі, ені, деңгейі) жүйенің акустикалық ерекшеліктері арқылы анықталады. Мейлінше маңызды болып саналатын параметр – форманттар жиілігі, ол сөйленім трактісінің геометриялық конфигурациясымен байланысты. Сөйлеу барысында сөйленім трактісінің конфигурациясы өзгеретіндіктен, форманттық жиіліктер де өзгереді.

Сонымен, форманттық синтездің негізінде адамның сөзтүзілім үлгісімен ұқсастыру жатыр. Дауысты дыбыстардың жасалуын мынадай үлгі бойынша қарастырамыз

Сурет –1 Сөйленімнің жиілік спектрінің үлгісі

Формант – бұл дыбыс спектрінде қуат арқылы шоғырланатын белгілі бір жиілік саласы. Сөйленім талданымының қажетті дәлдігіне орай екіден алтыға дейін формант қолданылады. Форманттық сүзгілердің (резонаторлардың) шығу белгісі адам сөзінің жиіліктік спектріне едәуір жақын болады, сол себепті біз оны сөйленімдік хабарлама ретінде қабылдаймыз [5].

Дауысты дыбыстардың бірқатар фонемаларына арналған форманттық жиіліктердің кестесін мынадай үлгі ретінде беруге болады:

Фонема	Формантты жиілік
Фонема	F1	F2	F3
о	275	850	2400
и	250	2300	3000
а	575	900	2450

Қорыта айтқанда, сөйленім синтезін түзуде акустикалық және артикуляторлық модельдеу арқылы сөйлеу үлгісін беруге және формант арқылы дыбыстың жиілігін анықтауға болады.

Әдебиет

1. Лобанов Б.М., Цирульник Л.И. Компьютерный синтез и клонирование речи. –Минск, 2008.

2. Чистовая Л.А. и др. Речь. Артикуляция и восприятие. –Л., 1965.

3. Фланган Дж. Анализ, синтез и восприятие речи. –М., 1968.

4. Лобанов Б.М., Давыдов А.Г., Киселев В.В., Цирульник Л.И. Система сегментации речевого сигнала методом анализа через синтез. Белоруссия, 2004 №1.

5. Фант Г. Акустическая теория речеобразования –М., 1964.