Меры связи порядковых данных и их использование в оценке, прогнозировании и планировании экономической деятельности

Экономические науки/ 8. Математические методы в экономике

К.э.н., доцент Галкина Е. В.

Орловский государственный институт экономики и торговли, Россия

Меры связи порядковых данных и их использование в оценке, прогнозировании и планировании экономической деятельности

Меры связи порядковых данных основаны на упорядоченности I категорий переменной А, представляющих I рангов, один из которых присваивается каждому из общего числа наблюдений. Наблюдения, которые принадлежат категории 1 переменной А (В), имеют более высокий ранг, чем наблюдения из категорий 2 того же фактора А (В), и т. д. При положительной связи между А и В наблюдения, имеющие высокие ранги переменной А, будут иметь тенденцию к более высоким рангам переменной В, а для наблюдений с низкими рангами А будут характерны и низкие ранги В.

К основным статистикам (мерам) связи порядковых данных относят коэффициенты γ Гудмена и Краскала, t Кендэла и d Сомерса [1; 2].

Связь переменных определяется на основе оценки пар наблюдений, одно из которых принадлежит ячейке (i, j), т. е. имеет категорию i переменной А и категорию j переменной В, а второе - ячейке (i', j'). Порядковые меры связи - это простые функции от величин:

S - общее число пар наблюдений, для которых либо одновременно i> i' и j > j' либо i < i' и j < j';

D - общее число пар наблюдений, для которых либо i > i' и j < j' либо i < j' и j >j';

T_a - общее число пар наблюдений, для которых i=i';

T_b - общее число пар наблюдений, для которых j=j'.

Когда между переменными А и В существует сильная связь, число S становится большим, а число D – малым. Поэтому порядковые меры связи оценивают величину разности S – D, а различаются способом нормирования этой разности.

Мера γ Л. Гудмена и Е. Краскала представлена формулой (1):

γ= (1)

Эта мера отражает разность между вероятностями правильного и неправильного порядка для двух наблюдений, извлеченных из совокупности случайно, при условии, что совпадающих рангов нет.

Если переменные А и В между собой независимы, то среднее значение γ равно 0. Однако если γ =0, то это не обязательно означает, что А и В независимы. Л. Гудмен и Е. Краскал продемонстрировали, что возможно построить такую таблицу, в которой γ будет равна 0, а переменные А и В окажутся явно не независимыми. Диапазон значений для γ простирается от - 1 до + 1. Выборочное распределение g приблизительно нормально.

В книге Г. Аптона предлагается следующий метод вычислений меры γ на основе таблицы сопряженности [1, с. 38], который показан ниже по данным таблицы 1.

Таблица 1. Таблица сопряженности переменных А и В

	B₁	B₂	B₃	B₄
A₁	4	15	11	20
A₂	8	7	6	30
A₃	6	21	12	32

Для вычисления S последовательно перебираются все ячейки, их частоты умножаются на общую частоту того блока ячеек, которые лежат ниже и правее соответствующей ячейки. Например, в таблице 1 частота 4 в ячейке (1,1) должна умножаться на сумму частот ячеек (2,2), (2,3), (2,4), (3,2), (3,3), (3,4). Эта сумма равна: 7+6+30+21+12+32=108. Совокупность таких (I - 1)(J - 1) перекрестных наблюдений есть S. Таким образом, для таблицы 1:

S= 4(7+6+30+21+12+32)+15(6+30+12+32)+11(30+32)+8(21+12+32)+7(12+32)+6*32=3334.

Для расчета величины D частота в каждой ячейке умножается на общую частоту блока, расположенного ниже и слева:

D = 20(8+7+6+6+21+12)+11(8+7+6+21)+15(8+6)+30(6+21+12)+6(6+21)+7*6 = 3246.

Согласно уравнению (1) мера γ равна:

γ==0,013

Мера t М. Кендэла представлена формулой (2):

τ_K= (2)

В первом примере были вычислены значения S и D для данных из таблицы 1. Г. Аптон предлагает рассчитывать величину T_a умножением частоты ячеек на сумму частот тех из них, которые стоят правее в той же строке, и сложением всех I(J-1) таких перекрестных произведений [1, с. 39]. По данным таблицы 1:

Т_а = 4(15+11+20)+15(11+20)+11*20+8(7+6+30)+7(6+30)+6*30+6(21+12+32)+21(12+32)+12*32=3343.

При вычислении T_b те же операции осуществляются не со строками, а со столбцами (частота ячейки умножается на сумму частот нижних ячеек в том же столбце):

Т_b = 4(8+6)+8*6+15(7+21)+7*21+11(6+12)+6*12+20(30+32)+30*32 = 3141.

Откуда τ_K равно:

τ_K== =0,179

Мера d Р. Сомерса. Р. Сомерс предложил видоизменить статистику τ_K, чтобы она они соответствовала ситуации, когда переменная (В) может рассматриваться как зависимая от переменной А. Эта статистика (d_ba) определяется по формуле (3):

d_ba= (3)

Статистика d_ba рассматривается как разность между вероятностями получить правильный и неправильный порядок при извлечении из совокупности двух наблюдений случайным образом, когда переменная А не имеет совпадающих рангов. Она распределена приблизительно нормально.

По данным таблицы 1:

d_ba==0,009

Обратная статистика рассматривает переменную А как зависимую – формула (4):

d_a_b= (4)

и по данным таблицы 1 равна:

d_a_b= =0,009

Каждая мера связи показателей таблицы сопряженности признаков определяет свой аспект связи между переменными, что обусловливает разные значения данных мер. Так, в примерах были рассчитаны (с округлением до тысячных) значения следующих мер связи для одних и тех же данных (таблицы 1):

γ=0,013; τ_K=0,179; d_ba=0,009; d_a_b=0,009.

При выборе среди этих мер для порядковых данных американский специалист по статистическому анализу данных Г. Аптон [1] предложил предпочесть γ, если переменные равноправны, и d_baСомерса, если переменная В зависит от переменной А. При этом Г. Аптон отмечает, что ни одной из этих мер, не стоит приписывать роль, большую, чем роль средства предварительной прикидки перед более систематическим анализом. Сложные количественные методы оценки взаимозависимости порядковых признаков включают методы энтропии, логнормальной оценки.

Изучение таблицы сопряженности порядковых признаков является полезным инструментом для анализа, прогнозирования структурных сдвигов в динамике экономических показателей, с последующим более обоснованным планированием экономической и социальной политики на соответствующем уровне управления. Методологическая основа прогнозирования на основе двумерных таблиц сопряженности отражена на рисунке 1.

Столбцы – Оценка возможности изменения экономического показателя в лучшую сторону (улучшение оценки отражается слева направо)

Строки – Балльная

(или словесная - в терминах «лучше/хуже..») оценка

респондентами приемлемости

экономического показателя с точки зрения его поддержания

(увеличение/ улучшение балла отражается в направлении сверху вниз)

Рисунок 1. Методологическая основа прогнозирования изменения экономических показателей на основе двумерных таблиц сопряженности

Стрелка на рисунке 1 показывает ожидаемое смещение показателей в следующем периоде (чем меньше оценка приемлемости экономического показателя, тем вероятнее его увеличение в будущем под воздействием усилий респондентов).

Оценка таблиц за ряд лет позволяет выявить динамику ожиданий и изменений экономических показателей (в том числе пики – «воодушевление», мотивацию и дно – «разочарования», демотивацию респондентов).

Литература:

1. Аптон, Г. Анализ таблиц сопряженности/ Г. Аптон. – М.: Финансы и статистика, 1982. – 143 с.

2. Татарова, Г.Г. Методология анализа данных в социологии (введение): Учебник для вузов/ Г.Г. Татарова. – М.: NOTA BENE, 1999. – 224 с.