ЛИНГВОМАТЕМАТИЧЕСКАЯ МОДЕЛЬ

ДЛЯ АНАЛИЗА СТРУКТУРЫ  КАЗАХСКОГО ТЕКСТА

Кажикенова С.Ш., Мазиева К.

Мы предлагаем идеальную лингвоматематическую модель для анализа структуры текста. Она построена на основе фундаментального закона сохранения суммы информации и энтропии с применением формулы Шеннона [1-4]. При общей характеристике энтропийно-информационного (энтропия - мера беспорядка, а информация – мера снятия беспорядка) анализа текстов мы использовали статистическую формулу Шеннона для определения совершенства, гармонии текста:

,                                          (1)

где рi – вероятность обнаружения какого-либо однородного элемента системы в их множестве ; ,  .

До опубликования созданной Шенноном теории Хартли предложил определять количество максимальной энтропии по формуле

.  

Казахский алфавит содержит 43 буквы (42 буквы, 1 пробел), то согласно этому результату

                                              бит.

- энтропия опыта, заключающегося в приеме одной буквы казахского текста (информация, содержащаяся в одной букве), при условии, что все буквы считаются одинаково вероятными.

В качестве примера был рассмотрен текст, связанный с казахской музыкой. Текст содержит знаков с пробелами –500, без пробелов –431 

     Ориентировочные значения частот отдельных букв казахского языка представлены в таблице 1и 2 (тире здесь обозначает пробел между словами). В таблице 1 буквы расположены в алфавитном порядке, таблице 2 по мере убывания относительных частот.

                                                                                                         Таблица 1

 

Буква

Относительная частота

Буква

Относительная частота

 1.

пробел

0,138

23

п

0,008

 2.

   а

0,112

24

р

0,052

3.

ә

0,01

25

с

0,026

4.

б

0,018

26

т

0,042

5.

в

0

27

у

0,022

6.

г

0,004

28

ұ

0,002

7.

ғ

0,008

29

ү

0,008

8.

д

0,034

30

ф

0

9.

е

0,042

  31

           х

0,01

10

ё

0

32

һ

0

11

ж

0,014

33

ц

0

12

з

0,028

34

ч

0

13

и

0,004

35

ш

0,006

14

й

0,018

36

щ

0

15

к

0,036

37

ъ

0

16

қ

0,018

38

           ы

0,124

17

л

0,036

39

і

0,032

18

м

0,05

40

ь

0

19

н

0,044

41

э

0

20

ң

0,026

42

ю

0

21

о

0,014

43

я

0,004

22

ө

0,01

 

 

 

 

Таблица 2

буква

относ.частота

__

0,138

ы

0,124

 

а

0,112

р

0,052

м

0,05

н

0,044

е

0,042

т

0,042

буква

относ.частота

к

0,036

л

0,036

д

0,034

і

0,032

з

0,028

ң

0,026

с

0,026

у

0,022

буква

относ.частота

б

0,018

й

0,018

қ

0,018

ж

0,014

о

0,014

ә

0,01

ө

0,01

х

0,01

буква

относ.частота

ғ

0,008

п

0,008

ү

0,008

ш

0,006

г

0,004

и

0,004

я

0,004

ұ

0,002

 

 

Приравняв эти частоты вероятностям появления соответствующих букв, получим на основании информационной энтропии Шеннона формулу для расчета максимального значения энтропии текста при учете одной буквы казахского текста:

:

     Ориентировочные значения частот двухбуквенных сочетаний казахского языка представлены в таблице 3 (тире здесь обозначает пробел между словами). В таблице 3 буквы расположены по мере убывания относительных частот.

                                                                                                         Таблица 3

 

сочетание

относ.частота

ы -

0,032

- м

0,022

 

ры

0,022

ың

0,020

ң -

0,020

му

0,020

уз

0,020

зы

0,020

сочетание

относ.частота

ык

0,020

ка

0,020

ты

0,018

- т

0,018

та

0,018

н -

0,018

і -

0,016

а -

0,016

сочетание

относ.частота

ыр

0,016

лы

0,016

- б

0,014

ар

0,014

- ж

0,014

мы

0,014

ал

0,012

ық

0,012

сочетание

относ.частота

ас

0,012

сы

0,012

ба

0,012

- к

0,012

ам

0,012

ен

0,012

ер

0,012

- х

0,001

сочетание

относ.частота

ха

0,01

да

0,01

рі

0,01

- о

0,01

ын

0,01

нд

0,01

ан

0,01

де

0,001

сочетание

относ.частота

р -

0,008

қт

0,008

- ә

0,008

ән

0,008

ді

0,008

- д

0,008

п -

0,008

ай

0,008

сочетание

относ.частота

ны

0,008

ла

0,008

ме

0,008

жы

0,008

ні

0,006

із

0,006

жа

0,006

кө

0,006

сочетание

относ.частота

- а

0,006

ды

0,006

кү

0,006

үй

0,006

йл

0,006

ле

0,006

ол

0,006

ыл

0,006

сочетание

относ.частота

- с

0,006

рм

0,006

қ -

0,006

ор

0,004

йт

0,004

ег

0,004

ге

0,004

ім

0,004

сочетание

относ.частота

мі

0,004

ат

0,004

з -

0,004

зд

0,004

ағ

0,004

ға

0,004

л -

0,004

- ө

0,004

сочетание

относ.частота

се

0,004

ед

0,004

аң

0,004

ңа

0,004

ып

0,004

ей

0,004

рл

0,004

аш

0,004

сочетание

относ.частота

- е

0,004

йд

0,004

лм

0,004

ма

0,004

әр

0,002

бі

0,002

ің

0,002

ақ

0,002

сочетание

относ.частота

қс

0,002

өр

0,002

іп

0,002

ңд

0,002

өп

0,002

ым

0,002

ыз

0,002

өт

0,002

сочетание

относ.частота

тк

0,002

ке

0,002

са

0,002

йы

0,002

өс

0,002

е-

0,002

тү

0,002

аб

0,002

сочетание

относ.частота

үс

0,002

өб

0,002

бе

0,002

йе

0,002

шт

0,002

си

0,002

ия

0,002

яқ

0,002

сочетание

относ.частота

еш

0,002

шқ

0,002

қа

0,002

ша

0,002

ес

0,002

ск

0,002

кі

0,002

ір

0,002

сочетание

относ.частота

со

0,002

то

0,002

ығ

0,002

ғы

0,002

от

0,002

ра

0,002

ад

0,002

- я

0,002

сочетание

относ.частота

яғ

0,002

ғн

0,002

ни

0,002

и -

0,002

он

0,002

ст

0,002

ау

0,002

у -

0,002

сочетание

относ.частота

бұ

0,002

ұл

0,002

 

 

 

 

 

 

 

Далее подсчитаем условную энтропию  опыта , состоящего в определении одной буквы казахского текста при условии, что нам известен исход опыта , состоящего в определении предшествующей буквы того же текста. Согласно вышесказанному   определяется  следующей формулой:

 

Аналогично этому можно определить и энтропию .

Приравняв эти частоты вероятностям появления соответствующих трехбуквенных сочетаний, что находит отражение в разности , получим для энтропии трех букв казахского текста приближенное значение:

 

для расчета максимального значения энтропии текста при учете четырех букв казахского текста:

 

        

при учете пяти букв казахского текста составляет  приближенное значение:

 

Согласно сказанному  выше, для определения условной энтропии  посчитали число всех шестибуквенных сочетаний в данном тексте. Посчитали шестибуквенные сочетания и применили формулу классического определения вероятности

,

где п -  число всех 6-ти буквенных сочетаний,

m – число сочетании, например, музыка.

 

В результате были получены следующие значения (в битах):

 

                                                                                                                              

  4,3598           2,3444          0,852       0,2813        0,1882             0,1657.       

   

Таким образом, полный анализ показывает, что план построения сложной информационной системы может формироваться только на верхних иерархических уровнях и оттуда спускаться на нижележащие уровни, задавая на них тот или иной порядок чередования элементов.

Используемый теорией информации статистический метод учета межбуквенных корреляций в  литературных текстах  обоих языков зависит  от смыслового контекста и одна, и две, и три буквы  и т.д. могут быть в одних случаях самостоятельным словом, а в других - входить в состав других слов.

Очевидно, что  рассматриваемые сочетания букв относятся к различным иерархическим уровням текста, однако подобное разграничение уровней может осуществляться только по смыслу, который заключает в себе анализируемый текст.

Литература

1 Кажикенова С.Ш., Оспанова Б.Р. Информационно-энтропийный анализ структуры текста // Караганда: Изд-во КарГТУ, 2012. – 251с.

2 Кажикенова С.Ш., Оспанова Б.Р.  К вопрос у о формировании концептуальной системы целевого языка в структуре коммуникативной компетенции // Язык и культура. – Томск, 2012.- №3. – С. 111-121.

3 Кажикенова С.Ш., Оспанова Б.Р. О некоторых аспектах языковой модели  в теории информации // Международный журнал экспериментального образования. – М., 2012. - №8. – С. 115-120.

4 Кажикенова С.Ш., Оспанова Б.Р. Лингвосинергетический подход к исследованию текста как самоорганизующегося объекта // Хаос и структуры в нелинейных системах. Материалы  междунар. науч.-практ. конф.(18-20 июня)/КарГУ. – Караганда: Изд-во КарГУ, 2012. – С.546-550