ҚАЗАҚ ТІЛІ ДЫБЫСТАРЫНЫҢ ДАУЫССЫЗ «ӘРІПТЕР» МЕН ДЫБЫСТАРДЫҢ СТАТИСТИКАСЫ

 

кандидат филологический наук

 Каршигаева Айнур Аралбековна – Университет «Туран»

 

 

Summary

The article describes the results of the statistical analysis of the Kazakh letters and sounds on the basis of their conformity to the words and phrases that occur in texts spelling and orthoepic dictionaries of the Kazakh language. The results of the statistical analysis of frequency dictionaries of the graphemes and phonemes were obtained by applying computer technology. In the article, these data are given in the appropriate tables.

 

Резюме

В статье описываются результаты статистического анализа казахских букв и звуков на основе соответствия их в словах и словосочетаниях, которые встречаются в текстах орфографического и орфоэпического словарей казахского языка. Результаты статистического анализа – частотные словари графем и фонем были получены путем применения компьютерной технологий. В статье эти данные даны в виде соответствующих таблиц.

 

Қазақ тілінің төл дауыссыз дыбыстар жүйесі 17 дыбыстан құралады. Олардың әліпбилік таңбалануы: Б, Ғ-Г, Д, Ж, З, Й, Қ-К, Л, М, Н, Ң, П, Р, С, Т, У(w). Бұл жерде Қ-К және Ғ-Г бір дауыссыздың жуан-жіңішке үндесім варианты болуынан бір дауыссыз деп қарастырудан, олардың саны 17-ге тең болып тұр [1, 75]. Ал біз дәстүр бойынша Қ-К, Ғ-Г дыбыстарының жасалым айырмашылықтарын ескере отырып, жек-жеке дауыссыздар санап, жалпы санын 19-ға тең деп алуды жөн көрдік. Себебі зерттеу нысанымыз «Қазақ тілінің орфоэпиялық сөздігінің» мәтініндегі әріп таңбасы мен айтылым нұсқасындағы дыбысты бейнелейтін таңбалар.

Осы зерттеудің алдында «Қазақ тілінің орфоэпиялық сөздігі» материалы бойынша дауысты дыбыстардың статистикасын компьютер көмегімен түзілген жиілік сөздік бойынша анықтаған болатынбыз. Сол зерттеуіміздегі әдіс-тәсілдерді негізге ала отрып, дауыссыз дыбыстардың статистикасын анықтау үшін, олардың жасалым белгілеріне қарай, үш топқа бөліп (жасалу орны, дауыс қатысы, жасалу тәсілі) қарастырамыз.

Ең алдымен орфоэпиялық сөздіктегі сөздер мен сөз тіркестерінің құрамында кездесетін дауыссыз «әріптер» мен дауыссыз дыбыстардың жиілік сөздіктерінің сандық мәліметтеріне (1-кесте) талдау жүргізейік.

Кесте 11 бағанадан тұрады: біліншісі –  әріп пен дыбыстардың рет саны, ал 2-ші мен 3-ші бағаналарда қолдану жиілігі кему тәртібімен орналасқан әріп және дыбыс таңбалары. Ал, 4-11-ші бағаналарда қазақ тілінің орфоэпиялық сөздік мәтініндегі әріптер (жұп санды бағанада) мен дыбыстардың (тақ санды бағанада) қолдану жиіліктерінің статистикасы берілді. Кестеде дауыссыз «әріптер» мен дыбыстардың рет саны, олардың жиілік сөздіктен алатын орнымен сәйкес келеді. Яғни 1-ші орында дауыссыз «әріп» пен дыбыстардың ең жиі қолданыстағысы орналасады да, ал одан төмен қарай жиіліктерінің кему тәртібін сақтай орналасып, ең соңғы орында (19-орын) сирек кездескен дауыссыз «әріп» пен дыбыс тұрады. Әрбір бағананың мазмұндық сипатын кестенің жоғарғы жағындағы көлденең жолында көрініс тапқан ақпарат арқылы танысуға болады.

 

 

 

1-кесте.    Орфоэпиялық сөздіктегі сөздер мен сөзтіркестерінің құрамындағы

дауыссыз «әріптер» мен дыбыстардың статистикасы (жиілік сөздігі)

Реті

()

 

Ә

Р

І

П

 

Д

Ы

Б

Ы

С

 

Абсолюттік жиілік

(Fi)

Қатынастық жиілік (ықтималдық)

(Pi=fі)

Жиынтық қатынастық жиілік

(∑ fі)

Дауыссыздар жиынтығының сөздік мәтінін қамту пайызы (∑fі)∙100%

Әріп

Дыбыс

Әріп

Дыбыс

Әріп

Дыбыс

Әріп

Дыбыс

1

2

3

4

5

6

7

8

9

10

11

1

т

т

39804

39862

0,0616

0,0592

0,0616

0,0592

6,16

5,92

2

л

л

35132

35137

0,0543

0,0522

0,1159

0,1114

11,6

11,14

3

н

у

32325

32540

0,0500

0,0483

0,1659

0,1598

16,6

15,98

4

қ

р

31517

31503

0,0487

0,0468

0,2147

0,2066

21,5

20,66

5

р

с

31485

30714

0,0487

0,0456

0,2634

0,2522

26,3

25,22

6

у

қ

31398

28143

0,0486

0,0411

0,3119

0,2940

31,2

29,40

7

с

н

30877

22797

0,0478

0,0339

0,3597

0,3279

36,0

32,79

8

б

м

20162

20496

0,0312

0,0304

0,3909

0,3583

39,1

35,83

9

д

д

19851

19794

0,0307

0,0294

0,4216

0,3877

42,2

38,77

10

к

й

17983

19687

0,0278

0,0292

0,4494

0,4170

45,0

41,70

11

м

б

16203

19435

0,0251

0,0289

0,4745

0,4459

47,4

44,59

12

ш

ш

16174

17123

0,0250

0,0254

0,4995

0,4713

50,0

47,13

13

ғ

ғ

12976

16367

0,0201

0,0243

0,5196

0,4956

52,0

49,56

14

й

к

12430

16007

0,0192

0,0238

0,5388

0,5194

53,9

51,94

15

ж

ң

11500

12326

0,0178

0,0183

0,5566

0,5377

55,7

53,77

16

з

ж

10722

11403

0,0166

0,0169

0,5732

0,5547

57,3

55,47

17

п

з

8192

10068

0,0127

0,0150

0,5858

0,5696

58,6

56,96

18

ң

г

7072

9013

0,0109

0,0134

0,5968

0,5830

59,7

58,30

19

г

п

6996

8911

0,0108

0,0132

0,6076

0,5963

60,7

59,63

Барлығы:

392799

401326

 

 

 

 

 

 

Сонымен, кесте мәліметтері бойынша ең алғашқы байқайтынымыз, қолдану жиілігі жағынан әріптер мен оған сәйкес келетін дыбыстардың орындары, көпшілік жағдайда, бірдей еместігі. Біздің тәжірибеміз бойынша, дауыссыз «әріптер» мен дыбыстар орындарының сәйкес келетіндері: Т, Л, Д, Ш, Ғ. Мәселен, 1-ші және 2-ші орындарға ие «Т» мен «Л» әріп және дыбыс ретінде бір-бірімен сәйкес келеді. Сол сияқты жиілік сөздіктің 9, 12 және 13-ші орындардағы «Д», «Ш», «Ғ» таңбалар әріп және дыбыс күйінде де бірдей реттік орындарды алып жатыр.

Орфоэпиялық сөздіктегі сөздер мен сөзтіркестерінің құрамындағы дауыссыз «әріптер» мен дыбыстардың жиілік сөздігінде (1-кесте) аталған бірліктердің қолдану жиілігі (абсолютті жиілігі) біртіндеп кему тәртібімен орналасатындығы жайлы жоғарыда айтқанбыз. Ал әріп таңбалары мен дыбыс таңбаларының рет сандарының бір-бірімен сәйкес келмеуінің негізгі себебі –жазба мәтініндегі сөздер мен сөз тіркестерін дыбыстау кезінде қатар тұрған дыбыстардың өзара әрекеттесуінен әріп таңбасы басқа таңбаға (таңбаларға) ауысады. Осының нәтижесінде жаңа дыбыс пайда болады да, кейбір дыбыстардың жиілігі өссе, ал кейбіреулерінің жиілігі керісінше кемиді. Мұны біз әріп пен дыбыс таңбаларының реттік сандарын салыстыра отырып көз жеткізе аламыз.

Мысалы, 3-ші реттегі «Н» әрпінің таңбасы дыбыс бағанасында 7-ші орынға төмен түскенін байқауға болады, яғни жазба мәтінінің дыбысталуынан кейбір сөздердегі «Н» әрпінің басқа дыбысқа ауысып, дыбыс бағанасындағы оның жиілігі азаяды және реттік саны өсіп, жиілік сөздіктегі орны төмендейді. Оған дәлел ретінде қазақ тілінің орфоэпиялық сөздігіндегі жазба үлгісі мәтініндегі сөздер мен сөз тіркестерінде кездесетін «Н» әрпінің айтылу үлгісі мәтінінде «М» немесе «Ң» дыбысына ауысатыны жайлы төмендегідей мысалдарды келтіруге болады: назырқанбау → назырқамбау; тікенбалық → тікембалық; намыстанған →намыстаңған; шалқанға → шалқаңға.

Сол сияқты, жазба мәтін үлгісіндегі сөздерде кездескен «Қ», «Б», «К», «Ж», «З», «П» әріптері дыбыстау үлгісі мәтініне ауысқан кезде өзгеріске ұшырап, басқа дыбыстарға ауысуынан дыбыс мәтіні бойынша түзілген жиілік сөздікте жазба мәтін үлгісінен түзілген жиілік сөздікке қарағанда, олардың жиілігі кемиді. Сондықтан да 1-кестеде аталған таңбалардың  жиілігі кеміп, жиілік сөздік бойында алатын орны да төмендейді. Мысалы:

1) «Қ»→«Ғ»: қоян-қолтық→қойан-ғолтық, ұл-қыз→ұл-ғыз;

2) «Б»→«П»: кейіс білдіру→кейіс пілдіру, тікбақай→тікпақай, толғақ болу →толғақ полу;

3) «К»→«Г»: кез келген→кез гелген, кей-кейде→кей гейде, шал кісі→ шал гісі;

4) «Ж»→«Ш»: лажсыз→лашшыз, үшжақты→үшшақты, үш жүз→ үш шүз;

5) «З»→«Ж», «З»→«Ш»: ауыз жаппас→ауұж жаппас, ауызша→ ауұшша;

6) «П»→«Б»: түп нағашы→түб нағашы, түпнұсқалық→түбнұсқалық.

Керісінше, «У», «С», «М», «Й», «Ң», «Г» әріптерінің дыбыс бағанасында  абсолютті жиіліктері басқа әріптердің (З, Н, Я, Н, К) дыбысталуынан өсіп, жиілік сөздіктен алатын орны да жоғарылайды. Мысалы:

1) «Ю»→«ҮУ», «Ю»→«ҰУ»: ноқта кию→ноқта гійүу, тымпию→ тымпыйұу, сою →сойұу, үлкею →үлкөйүу;

2) «З»→«С»: тапқызса → тапқысса, ....   

3) «Н»→ «М»: тынбау→тымбау, таранбау→тарамбау, азуын басу→ азұуұм басұу, түнбаласы→түмбаласы;

4) «Я»→«ЙА», «И»→«ЫЙ»: қол аяғы→қол айағы, балпию→балпыйұу;

5) «Н»→«Ң»: белденген→белдеңген, қоныстанған→қоныстаңға, тұтанғыштық→тұтаңғыштық;

6) «К» → «Г»: қонаға келу→қонаға гелүу, әдеміше келген→әдеміше гелген.

Қазақ тілінің орфоэпиялық сөздігі бойынша мұндай мысалдарды көптеп келтіруге болады. Әрине, әр тілдің дыбысталуында сол тілге ғана тән ерекшелік тер болады. Сондай ерекшеліктің бірі дыбыстардың жиілік сөздіктегі алатын орны. Мәселен, азербайжан тілі дыбыстары қазақ тілі дыбыстарына қарағанда басқаша орналасқан. Мысалы, қазақ тілінде ең жиі қолданылып, дауыссыздардың жиілік сөздігінде бірінші орында тұрған «Т» дыбысы, азербайжан тілі дауыссыз дыбыстарының жиілік сөздігінде 9-шы орында тұр [2, стр.41], ал өзбек тілінде аталған дыбыс 4-ші орынға ие [3, 10]. Азербайжан және өзбек тілдеріндегі ең жиі қолданған «Н» дауыссыз дыбыс қазақ тілінде 7-ші орында және ол дыбыс мәтінінің тек 3,4 пайызын ғана қамтиды. Сондықтан түркі тілдері дыбыстарының статистикалық деректері типологиялық зерттеулерге де материал бола алады.

Енді 1-кестедегі сандық мәліметтерге толығырақ тоқталайық. Орфоэпиялық сөздіктегі әріп мәтінінің көлемі 646493 әріптік бірліктен, ал дыбыс мәтінінің көлемі 673064 дыбыстық бірліктерден тұратынын ескерсек, дауыссыздарға сәйкес келетін әріп пен дыбыс таңбалары, шамамен алғанда, өздеріне сәйкес мәтіндердің бірдей көлемін, яғни 60 пайызын қамтиды екен. Ең жиі кездесіп 1-ші ретте орналасқан «Т» әрпі мен «Т» дыбысы сәйкес мәтіндерінің 6,16% және 5,92%, сол сияқты 2-ші  реттегі «Л» әрпі мен дыбысы 5,4%  және 5,2% қамтып, шамалас дәрежеде қолданатынын көруге болады. Аталған «Т» және «Л» әріп пен дыбыс біріге қолданып өздеріне сәйкес мәтіндердің, шамамен алғанда, әріп мәтінін – 12%, ал дыбыс мәтінін – 11% қамтып жатыр. «Т» таңбасы әріп және дыбыс түрінде жеке қолданып, барлық дауыссыз «әріптер» мен дыбыстардың, шамамен алғанда, 10 пайызын құрайды екен. Сол сияқты «Л» таңбасының тәріздес қолданысы «Т»-дан 1% кем, яғни дауыссыздардың 9 пайызын құрайды екен. «Т» мен «Л» таңбаларын бірге есептегенде, олардың әріп және дыбыс түрінде қолданулары, барлық дауыссыздар қолдануының 19% алып жатыр.

Егер дауыссыздардың статистикасын жиілік сөздікті шартты түрде 3 зонаға бөліп, жоғары жиілікті және төменгі жиілікті деп қарастырсақ, мынадай мәліметтерді алуға болады:

Шартты түрде 1-ші зонаға жиіліктер 20000 жоғары, 2-ші зонаға – 10000 жоғары және 3-ші зонаға – 11000 төмен жиілікті әріптер мен дыбыс бірліктеріне қатысты бөліктерді жатқызайық.

1-кесте бойынша 1-ші зонаға рет сандары 1-8 аралығы, 2-ші зонаға – 9-16 аралығы және 3-ші зонаға 17, 18, 19 рет сандардағы әріп пен дыбыс қатарлары жатады. Дәлірек айтқанда, әріп қатары бойынша 1-ші зонаға 8 әріп: Т, Л, Н, Қ, Р, У, С, Б, 2-ші зонаға келесі 8 әріп: Д, К, М, Ш, Ғ, Й, Ж, З және 3-ші зонаға соңғы 3 әріп: П, Ң, Г жатады. Аталған зоналардағы «дауыссыз» әріптердің барлық дауыссыз әріптердің қайталана қолдануынан алатын үлгісі:

1-ші зона бойынша – 64%

2-ші зона бойынша – 30%

3-ші зона бойынша – 6%. Барлығы 100%. Үш зона бойынша дауыссыз дыбыстардың барлық дауыссыз дыбыстардың қайталана қолдануынан алатын үлесі:

1-зонада – 60%

2-зонада – 33%

3-зонада –7%. Барлығы: 100%

Енді осы үш зонадағы «дауыссыз» әріп пен дауыссыз дыбыстардың қазақ тілінің орфоэпиялық сөздігіндегі сәйкес мәтіндерді қамту пайызын қарастырайық.

«Дауыссыз» әріптердің жазылу үлгісі мәтінін (сол жақ бағана) қамту пайызы:

1-зона бойынша –  39%

2- зона бойынша – 18%

3- зона бойынша – 3%.

Барлығы: 60%

Дауыссыз дыбыстардың айтылу үлгісі мәтінін (оң жақ бағана) қамту пайызы:

1-зона бойынша – 36%

2- зона бойынша – 20%

3-зона бойынша –  4%.

Барлығы: 60%

Сонымен, «дауыссыз» әріптер мен дауыссыз дыбыстар орфоэпиялық сөздік мәтінінде қайталана қолданып, нәтижесінде өздеріне сәйкес мәтіндердің бірдей көлемдерін (60%) қамтиды. 1-кестедегі жиілік сөздіктеріндегі үш зонаның әр бөлігі бойынша есептелген пайыздық көрсеткіштер де бір-біріне шамалас дәрежеде қолданыс тапқан. 1-кестенің сандық деректері бойынша басқа да мәліметтер алуға болады. Мысалы, 19 «дауыссыз» әріптің жиі қолданатын 12-сі мәтін ішінде қайталана келе, оның 50 пайызын қамтыса, дыбыс мәтінінің 50% қамту үшін 13 дыбыстың қайталана қолдануы қажет екен және т.б. да мәліметтер алуға болады [4].

 

Әдебиет

1. Жүнісбек Ә.   Қазақ фонетикасы. Алматы : Арыс, 2009. - 309 б.

2. Рахманов Д. А. Статистико-дистрибутивный анализ азербайджанского текста (на уровне графем и фонем). Диссертация. – Баку, 1988. 215 с.

3. Ризаев С.А. Статистическое исследования графической и фонологической систем современного узбекского литературного языка. Автореф. , – Ташкент, 1970,-26 б.

4. Джубанов А.Х. К вопросу о графемной статистике казахского текста // Вопросы казахской фонетики и фонологии. – Алма-Ата: Наука, 1979. –С.49-52.