Нысанов Е.А., Аширбаева А.Н.

ЮКГУ им.М.Ауезова, г.Шымкент, Казахстан

Компьютерное моделирование и расчет средних величин статистики

 

         Обычно наиболее важной статистикой, получаемой из набора количественных данных, является "среднее" или "мера расположения", указывающая, где находится "центр" данных.

         Точно так же, как люди могут иметь различные мнения по поводу местонахождения центра города в зависимости от того, что они собираются там делать, есть и различные способы оценки среднего значения набора данных. Примерами различных типов средних значений[1-3], каждое из которых имеет точное определение, служат среднее арифметическое, полусумма крайних значений, медиана, мода, геометрическое среднее и гармоническое среднее.

         Все типы средних имеют одно простое общее свойство. Среднее всегда не меньше минимального наблюдаемого значения и не больше максимального наблюдаемого значения. Отсюда следует, что если все наблюдения имеют одно и то же значение, то и все различные типы средних также должны равняться этому значению.

         Три типа средних значений настолько легко могут быть получены из собранных данных, что вряд ли есть необходимость специально включать их в статистические программы. Полусумма крайних значений определяется, естественно, как полусумма минимального и максимального наблюдаемых значений.  Медиана - это величина, находящаяся посередине набора данных, когда в нем все наблюдения упорядочены по возрастанию; если число наблюдений четно, то имеются два "срединных" значения, и медиана равна их полусумме. Мода представляет собой наиболее часто встречающееся значение, и поэтому в некоторых наборах данных могут быть две или более моды, имеющие одну и ту же частоту.

         Данные 1

         38, 50, 37, 44, 41, 53, 42, 48, 43, 42, 46

         В этом случае минимум равен 37, а максимум - 53, поэтому полусумма крайних значений равна 45. Как видно, пять из одиннадцати значений меньше 43 и пять значений больше 43, следовательно, медиана равна 43. Единственное значение, которое встречается более одного раза, есть 42, поэтому мода равна 42. Чтобы получить среднее арифметическое, требуется гораздо больший объем вычислений, чем для трех уже рассмотренных мер расположения, и тем не менее это наиболее часто используемое среднее, поскольку в расчет здесь принимаются все без исключения значения. Часто называемое просто средним, среднее арифметическое определяется как сумма наблюдений, деленная на их количество.

         Существуют три специальных типа средних величин, которые получаются в результате вычисления среднего арифметического от определенным образом преобразованных наблюдаемых величин и соответствующего обращения этого среднего. Геометрическое среднее есть антилогарифм среднего арифметического от логарифмов наблюдаемых величин. Гармоническое среднее есть обратная величина к среднему арифметическому от обратных величин к наблюдениям. Корень из среднего квадратичного есть квадратный корень из среднего арифметического от квадратов наблюдаемых величин.

         Эти специальные средние значения следует использовать в тех случаях, когда известно, что именно они соответствуют имеющемуся типу данных, а не только ради разнообразия. Например, можно рекомендовать геометрическое среднее для усреднения последовательности дробей, гармоническое среднее для усреднения последовательности скоростей на одинаковых дистанциях (тогда как для последовательности скоростей на равных отрезках времени потребуется среднее арифметическое) и среднее квадратичное для неких задач, связанных с моментами инерции или с радиусами инерции.

         По-другому геометрическое среднее определяется как корень N-й степени из произведения N наблюдений, однако это определение не дает никаких преимуществ при программировании на Бейсике. Следует отметить, что если какая-либо из наблюдаемых величин отрицательна или равна нулю, то геометрическое и гармоническое средние не существуют.

             Полезно иметь программу, вычисляющую различные меры расположения, хотя для одного и того же набора данных они никогда все сразу не понадобятся. Медиана и мода легко определяются из частотных данных, к тому же процедуру их вычисления довольно сложно включить в простую программу. Однако программа, составленная на QBASICе [4], вычисляет остальные пять из рассмотренных мер расположения. Две другие особенности этой программы состоят в том, что здесь не требуется представлять данные в виде частот, а также предполагается, что общее количество наблюдений заранее не известно и поэтому конец набора данных обозначается вводом очень большого числа.

Программа 

  10 PRINT:PRINT"Меры расположения"

  20 PRINT:PRINT"Введите наблюдения."

  30 PRINT"Введите 1Е+11 для окончания ввода."

  40 MN=1E+11:MX=-MN

  50 N=0:S1=0

  60 SG=0:SH=0:S2=0

  70 INPUT X:IF X>1E+10 GOTO 130

  80 IF X<MN THEN MN=X

  90 IF X>MX THEN MX=X

100 N=N+1:S1=S1+X

110 SG=SG+LN(X):SH=SH+1/X:S2=S2+X*X

120 GOTO 70

130 PRINT:PRINT N;" наблюдений"

140 PRINT:PRINT" Полусумма крайних значений =";(MN+MX)/2

          150 PRINT" Среднее арифметическое=";S1/N

          160 PRINT" Среднее геометрическое=";EXP(SG/N)

          170 PRINT" Среднее гармоническое=";N/SH

180 PRINT" Корень из средного квадратичного =";SQR(S2/N)

190 PRINT

200 GOTO 20

             В некоторых случаях данные, которые необходимо обработать, уже представлены в виде частот. Программу можно приспособить для работы с данными такого вида, изменив в ней три строки:

20 PRINT:PRINT"Введите значения вместе со своими частотами."

100 INPUT"Частота";F:N=N+F:S1=S1+F*X

110 SG=SG+F*LN(X):SH=SH+F/X:S2=S2+F*X*X

Приведем еще два набора данных в виде частот.

Данные 2

Значения: 10  12  14  16  17  19  20  21

Частоты:    2    3    4    5    6    8  10  12

Данные 3

Значения:  15  16  17  18  19  20  21  22  23  24  25

Частоты:     1    3    6    9   12  14  11   9    5    0    1

         Отметим, что в данных 2 перечислены только значения с ненулевыми частотами, тогда как в данных 3 приведены все значения от минимального до максимального. На практике могут встретиться данные и в том и в другом виде.

         Для удобства, желающего проверить свои программы, мы приводим все семь различных типов мер расположения для данных 1,2,3.

Тип среднего

Данные 1

Данные 2

Данные 3

Полусумма крайних значений

Медиана

Мода

Среднее арифметическое

Среднее геометрическое

Среднее гармоническое

Корень из средного квадратичного

45

43

42

44.0

43.8

43.5

44.2

15.5

19

21

17.96

17.65

17.28

18.232

20

20

20

19.77

19.67

19.56

19.88

Здравый смысл должен подсказывать нам, сколько десятичных знаков после запятой следует привести для указанных статистик. Например, для средних значений, рассчитанных по данным 4, приводится только один десятичный знак после запятой, поскольку в этом наборе содержится только 11 наблюдений, являющихся целыми числами.

         Программа может, конечно, воспринимать и наблюдения, не являющиеся целыми числами, причем для программы все наблюдения должны быть положительными. Примером таких данных являются

Данные 4

         3.1, 4.2, 5.5, 3.7, 5.5, 7.0, 5.2                                                   

         Для данных 4 семь рассмотренных типов средних значений составляют соответственно 5.05, 5.2, 5.5, 4.89, 4.73, 4.58, 5.04.

        

Литература:

1. Практикум по теории статистики.-М.:Финансы и статистика, 2004

2. Статистика. Учебник. Под.ред. Елисеевой И.И.-М., 2006

3. Теория статистики. Под.ред. Громыко Г.Л.-М., 2002

4. Федоренко Ю. Алгоритмы и программы на QBASIC.-СПб.:Питер,       

     2002.-287с.