Некоторые Приложения Корреляционного анализа
Паршина К.С., Гарькина И.А.
Пензенский государственный университет архитектуры и строительства
Условное математическое ожидание величины Y можно рассматривать как функцию от x (
). Функция
называется регрессией Y по
X; уравнение
- уравнением
регрессии Y по X; линия, определяемая этим уравнением в плоскости XOY, называется линией регрессии Y по X
(для дискретных величин “линия” будет состоять из изолированных точек плоскости). Аналогично
определяются регрессия
, уравнение регрессии и линия регрессии величины X по Y.
Наиболее простым случаем является тот, когда обе функции регрессии
, ![]()
являются линейными и обе линии регрессии будут прямыми
линиями. Эти прямые называются прямыми регрессии.
Уравнения прямых регрессии, получаемые по
эмпирическим данным, имеют вид:
;
,
где
,
- эмпирические (выборочные) средние;
,
- эмпирические (выборочные) дисперсии;
- эмпирический (выборочный) коэффициент
корреляции.
Теоретический коэффициент корреляции
случайных величин X, Y определяется
как отношение корреляционного момента
Kx, y = M [(X-M[X])
(Y - M[Y]]
к произведению средних квадратических отклонений этих
величин:
.
Коэффициент корреляции по абсолютной
величине не превышает 1 (½rxy ½ £ 1), причём, чем ближе rxy к 1, тем больше корреляционная зависимость между X и Y
приближается к линейной, а при ½ rxy
½ = 1; случайные величины связаны линейной
функциональной зависимостью. Если rxy
= 0, то X и Y не связаны линейной
корреляционной зависимостью, но могут быть связаны нелинейной корреляционной
или даже функциональной зависимостью.
Воспользуемся приведенным выше для
определения зависимости коэффициента теплопроводности l , Вт / (м2 ×
) жаростойкого бетона с заполнителем из магнезита от средней
температуры нагрева
по данным эксперимента:
|
|
100 |
300 |
600 |
700 |
900 |
1100 |
|
l |
5,90 |
5,35 |
4,78 |
4,20 |
3,60 |
3,00 |
|
m |
2 |
3 |
3 |
4 |
4 |
2 |
С учетом оценок математических
ожиданий
;
для системы центрированных
случайных величин
и
корреляционная таблица
будет иметь вид:
|
|
|
nt |
|||||
|
|
-1,41 |
-0,81 |
-0,21 |
0,37 |
0,94 |
1,49 |
|
|
-538,9 |
|
|
|
|
|
2 |
2 |
|
-338,9 |
|
|
|
|
3 |
|
3 |
|
-38,9 |
|
|
|
3 |
|
|
3 |
|
61,1 |
|
|
4 |
|
|
|
4 |
|
261,1 |
|
4 |
|
|
|
|
4 |
|
461,1 |
2 |
|
|
|
|
|
2 |
|
nl |
2 |
4 |
4 |
3 |
3 |
2 |
18 |
Получим следующие
оценки:
,
;
,
;
; ![]()
(корреляционная зависимость между X и Y близка к линейной).
Эмпирические прямые регрессии имеют вид:
;
.
Для оценки точности выборочного значения r* используем функцию:
.
Распределение случайной величины W можно аппроксимировать нормальным распределением
со средним значением и дисперсией вида
,
.
На основе этих соотношений легко построить
доверительные интервалы для rxy
по выборочной оценке r*. Из-за выборочной
изменчивости оценок корреляции обычно приходится проверять, свидетельствует ли
ненулевое значение выборочного коэффициента корреляции о существовании статистически
значимой корреляции между
изучаемыми величинами. Сделать
это можно, проверив гипотезу rxy = 0, причём отклонение гипотезы будет говорить о
значимости корреляции. При rxy
= 0 выборочное распределение W будет нормальным со средним M [ W
] = 0 и дисперсией
. Поэтому область принятия гипотезы о нулевой корреляции
будет иметь вид:
,
где z -
стандартная, нормально распределённая случайная величина. Если значение окажется
вне этого интервала, то это будет признаком наличия статистической корреляции с
уровнем значимости a. Для рассматриваемого случая
; при этом
.
Гипотеза rxy должна быть отвергнута с уровнем значимости 5 % , поскольку
не попадает в область
принятия гипотезы, ограниченную величинами
. Следовательно, есть основания считать, что между
коэффициентом теплопроводности и средней t o нагрева существует значимая связь.
Для качественного анализа при исследовании
зависимостей могут использоваться и
более простые методы, в частности, методы ранговой корреляции [1].
Литература
1.
Данилов А.М., Гарькина
И.А., Домке Э.Р. Математическое и компьютерное моделирование сложных систем. -
Пенза: ПГУАС, 2011. -296 с.