Математика. Теория вероятностей и математическая статис­тика

 

Старший преподаватель Омарханова Ж.Т.,

студентка 2 курса Жаксылыкова А.,

Костанайский государственный университет, Казахстан

Частота появления букв английского алфавита на примере произведений Байрона

 

Если задать человеку, знающему английский язык,  следующий вопрос: «Перед вами текст длиной в 1000 букв. Сколько раз в таком тексте можно встретить букву s?». Что можно услышать в ответ?

Такую задачу (на материале английского языка) впервые решал американский психолог Ф.Эттнив еще в 1953 году. Эттнив вначале подсчитал частоты встречаемости букв английского алфавита, используя для этого тексты газет и журналов на английском языке. Эти оценки естественно считать объективными оценками частот букв английского алфавита [1].

Текст состоит из слов, слова из букв. Количество различных букв в каждом языке ограничено, и буквы могут быть просто перечислены. Но важными характеристиками текста являются частота появления букв.

Алфавит английского языка состоит из 26 букв. Шесть букв обозначают гласные звуки: A, E, I, O, U, Y.  Двадцать букв обозначают согласные звуки: B, C, D, F, G, H, J, K, L, M, N, P, Q, R, S, T, V, W, X, Z [2].

Для выявления частот появления букв английского алфавита был проведен анализ по десяти произведениям американского поэта Джорд Гордон Ноель Байрона, таких как «Тhe destruction ofsennacherib», «MySoulIsDark»,  «EpitaphforWilliamPitt», «Lines written in an album, at Malta» и т.п.

Подсчитывалось количество всех букв в исследуемом произведении, затем количество каждой буквы в отдельности. 

Вероятность появления буквы: p(a)=ka/ks, где p(a) – обозначения вероятность буквы а, ka – обозначение количества буквы а,  ks – обозначение количества всех букв.

Было установлено, что ks=952, ka=74, тогда p(a)=74/952=0,077731092.

В результате чего, была выявлена частота появления букв английского алфавита.

Таблица 1. Частотный анализ произведения Байрона

Символ

Кол-во

Частота появления

Символ

Кол-во

Частота появления

Aa

74

0,077731092

Nn

68

0,071428571

Bb

15

0,015756303

Oo

59

0,06197479

Cc

9

0,009453782

Pp

13

0,013655462

Dd

48

0,050420168

Qq

0

0

Ee

143

0,150210084

Rr

55

0,057773109

Ff

25

0,026260504

Ss

60

0,06302521

Gg

16

0,016806723

Tt

96

0,100840336

Hh

82

0,086134454

Uu

18

0,018907563

Ii

50

0,052521008

Vv

5

0,005252101

Jj

0

0

Ww

30

0,031512605

Kk

7

0,007352941

Xx

1

0,00105042

Ll

55

0,057773109

Yy

10

0,010504202

Mm

13

0,013655462

Zz

0

0

 

«THE DESTRUCTION OF SENNACHERIB»

The Assyrian came down like the wolf on the fold,

And his cohorts were gleaming in purple and gold;

And the sheen of their spears was like stars on the sea,

When the blue wave rolls nightly on deep Galilee.

Like the leaves of the forest when Summer is green,

That host with their banners at sunset were seen:

Like the leaves of the forest when Autumn hath blown,

That host on the morrow lay withered and strown.

For the Angel of Death spread his wings on the blast,

And breathed in the face of the foe as he passed;

And the eyes of the sleepers waxed deadly and chill,

And their hearts but once heaved, and for ever grew still!

And there lay the steed with his nostril all wide,

But through it there rolled not the breath of his pride;

And the foam of his gasping lay white on the turf,

And cold as the spray of the rock-beating surf.

And there lay the rider distorted and pale,

With the dew on his brow, and the rust on his mail:

And the tents were all silent, the banners alone,

The lances unlifted, the trumpet unblown.

And the widows of Ashur are loud in their wail,

And the idols are broke in the temple of Baal;

And the might of the Gentile, unsmote by the sword,

Hath melted like snow in the glance of the Lord!

 

Как видно с таблицы и из приведенного стихотворения:

А) символы a, d, e, h, l, n, o, r, s, t встречаются чаще всех;

В) символы b, f, m ,p, u,w, c, k, v, x, y  встречаются реже;

С) символы j, q, z   не встречаются вообще.

Самым частым словом в тексте является слово – the, оно встречаются 47  раз.

 

Диаграмма частотного анализа произведений Байрона

 

Существуют множество различных таблиц о распределении букв в том или ином языке, но ни одна из них не содержит окончательной информации - даже порядок букв может отличаться в различных таблицах. Распределение букв очень сильно зависит от типа теста: проза, разговорный язык, технический язык и т.п.  Например, в технических текстах редкая буква Ф может стать довольно частой в связи с частым использованием таких слов, как функция, дифференциал, диффузия, коэффициент и т.п.[3].

Хотя нет таблицы, которая может учесть все виды текстов, но есть вещи общие для всех таблиц, например, в английском языка буква E всегда возглавляет список частот, а T идет на второй позиции. A и O почти всегда третьи. Кроме того девять букв английского языка E, T, A, O, N, I, S, R, H всегда имеют частоту выше, чем любые другие. Эти девять букв заполняют примерно 70% английского текста [4].

Применение:

·       В интеллектуальных играх можно быстро отгадать загаданное слово, называя буквы  в таком порядке. Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным.

·       Частотность букв, прежде всего, использовали и используют криптологи  для расшифровки зашифрованных посланий. В литературе один из ярких примеров расшифровки по частотности был описан у Конан-Дойла, когда Шерлок Холмс успешно расшифровал зашифрованное письмо.

·       В мобильных устройствах, компьютерных клавиатурах можно заметить что буквы того или иного алфавита расположены в определенном порядке.

 

Литератур:

1.        Фрумкина Р.М. Психолингвистика: Учебное пособие для студентов высших учебных заведений

2.        http://ru.wikipedia.org

3.        http://habrahabr.ru

4.        А.П.Алферов и др., "Криптография"