Математика/3 – Теория вероятностей и математическая статистика
К.т.н. Игнатьев В.М., Фурсина А.C.
Южно-Российский
государственный политехнический университет, Россия
СТАТИСТИЧЕСКИЙ АНАЛИЗ ПОТРЕБЛЕНИЕ
ПРОДУКТОВ
ПИТАНИЯ В РЕГИОНАХ РОССИИ
При анализе рассматриваются следующие данные: удельное
потребление мяса в год на душу населения (кг), молока (л), количество яиц (шт),
сахара (кг), растительного масла (л), хлеба и хлебобулочных изделий (кг),
картофеля (кг) и овощей (кг). В качестве зависимых факторов выбраны: продолжительности
жизни населения, рождаемость, смертность и заболеваемость. При анализе данных воспользуется
данными Росстата за 2011 год [1]. Одним их эффективных методов сравнения регионов является
кластерный анализ. При проведении кластеризации регионов с помощью метода k-средних [2] значения исходных
данных нормализуются по формуле Kj = (M – Ij) / σ,
j = 1..80,
где M – среднее данного; σ – среднеквадратичное отклонение данного;
в качестве I последовательно используются удельное потребление
каждого продукта питания и средняя заболеваемость в регионе. Кластерный анализ в пакете STATISTICA разбил регионы в 2011 г. на четыре
кластера с центрами, приведёнными на рис. 1.
Рисунок 1 – Диаграмма центров кластеров
Число регионов РФ в 2011 г. – 80. Список регионов приведён в
табл. 1.
Таблица 1 –
Номера и список регионов
Российской Федерации
|
№ |
Регион |
№ |
Регион |
№ |
Регион |
|
1 |
Белгородская область |
28 |
г. Санкт-Петербург |
55 |
Ульяновская область |
|
2 |
Брянская область |
29 |
Республика Адыгея |
56 |
Курганская область |
|
3 |
Владимирская обл. |
30 |
Республика Калмыкия |
57 |
Свердловская область |
|
4 |
Воронежская область |
31 |
Краснодарский край |
58 |
Тюменская область |
|
5 |
Ивановская область |
32 |
Астраханская область |
59 |
Челябинская область |
|
6 |
Калужская область |
33 |
Волгоградская область |
60 |
Республика Алтай |
|
7 |
Костромская область |
34 |
Ростовская область |
61 |
Республика Бурятия |
|
8 |
Курская область |
35 |
Республика Дагестан |
62 |
Республика Тыва |
|
9 |
Липецкая область |
36 |
Республика Ингушетия |
63 |
Республика Хакасия |
|
10 |
Московская область |
37 |
Кабардино-Балкарская
Республика |
64 |
Алтайский край |
|
11 |
Орловская область |
38 |
Карачаево-Черкесская
Республика |
65 |
Забайкальский край |
|
12 |
Рязанская область |
39 |
Республика Северная
Осетия -Алания |
66 |
Красноярский край |
|
13 |
Смоленская область |
40 |
Чеченская Республика |
67 |
Иркутская область |
|
14 |
Тамбовская область |
41 |
Ставропольский край |
68 |
Кемеровская область |
|
15 |
Тверская область |
42 |
Республика
Башкортостан |
69 |
Новосибирская обл. |
|
16 |
Тульская область |
43 |
Республика Марий Эл |
70 |
Омская область |
|
17 |
Ярославская область |
44 |
Республика Мордовия |
71 |
Томская область |
|
18 |
г. Москва |
45 |
Республика Татарстан |
72 |
Республика Саха
(Якутия) |
|
19 |
Республика Карелия |
46 |
Удмуртская Республика |
73 |
Камчатский край |
|
20 |
Республика Коми |
47 |
Чувашская Республика |
74 |
Приморский край |
|
21 |
Архангельская обл. |
48 |
Пермский край |
75 |
Хабаровский край |
|
22 |
Вологодская область |
49 |
Кировская область |
76 |
Амурская область |
|
23 |
Калининградская обл |
50 |
Нижегородская область |
77 |
Магаданская область |
|
24 |
Ленинградская обл. |
51 |
Оренбургская область |
78 |
Сахалинская область |
|
25 |
Мурманская область |
52 |
Пензенская область |
79 |
Еврейская авт. обл. |
|
26 |
Новгородская обл. |
53 |
Самарская область |
80 |
Чукотский автономный округ |
|
27 |
Псковская область |
54 |
Саратовская область |
Во второй кластер вошло
14 регионов из 80. Это следующие регионы: 5,6,16,21,36,40,61,62,65,67,73,74,78,80.
Для этого кластера характерна: самая низкая доля потребления
мяса, молока; яиц, сахара, хлеба и овощей. Доля потребления картофеля и
растительного масла средняя. Заболеваемость довольно высокая. Третий
кластер составляют 15 регионов: 1,4,8,9,10,14,29,31,32,37,41,44,
70. Доля потребления мяса и молока высока и находится на 2-м месте. Потребление
яиц, хлеба, овощей самое высокое. Для третьего кластера характерна довольно
высокая заболеваемость.
Четвертый
кластер составляют 15 регионов: 17,18,20,23,24,25,27,28,30,
34,42,45,50,51,52,54,57,77. В 4 кластере наблюдается
низкое потребление мяса, молока, яиц, сахара, растительного масла, хлеба,
картофеля и овощей. Заболеваемость для данного кластера принимает среднее
значение.
В
первый кластер вошли остальные 33 региона. Регионы этого кластера имеют высокую
долю потребления картофеля, среднюю долю потребления остальных продуктов. Малое
удельное потребление овощей и самую высокую заболеваемость. Основная задача кластерного анализа заключается в выделении по
фактическим данным резко
различающихся групп (кластеров) объектов (регионов), которые схожи между собой внутри каждой из групп.
При использовании метода главных компонент [2] показатели
по уменьшению степени разброса выстроились в последовательность: удельное
потребление картофеля, овощей, молока, хлеба, сахара, продолжительность жизни,
удельное потребление яиц, растительного масла и мяса. Вместо заболеваемости
была взята средняя продолжительность жизни в регионе.
Регрессионный анализ позволит построить
зависимости между показателями рассматриваемой системы. При проведении регрессионного
анализа [3] были построены регрессионные уравнения с значимыми скорректированными
коэффициентами детерминации на уровне значимости 0,05. Все уравнения значимы
согласно дисперсионному анализу по критерию Фишера. Вид уравнения регрессии для
продолжительности средней жизни в регионе следующий:
P
= 66,87-0,3131M+0,002M2+0,01362MO+0,00001MO2+0,01956J-0,00004J2+ 0,215C -0,00045C2-1,14RM+0,03682RM2+0,12376X-0,00062X2-0,01856K+ 4·10-5K2 +0,05448O-0,00015O2 при r2= 328,
где
Р – средняя продолжительность жизни,
лет; M – удельное потребление
мяса, кг/чел. за год; MO
– потребление молока, л/чел. за год; J
– потребление яиц, шт./чел. за год; C
– потребление сахара, кг/чел.; RM
– растительное масло, л/чел.; X
– потребление хлеба, кг /чел; K
– потребление картофеля, кг/чел.; O
– потребление овощей, кг/чел.; r2 – скорректированный
коэффициент корреляции.
Для коэффициента заболеваемости уравнение
регрессии имеет вид
Z = 1120,853-1,95M+0,015M2+1,023MO-0,004MO2+1,082J-0,001J2+74,832C-0,99C2 - 66,220RM+2,284RM2-21,663X+0,094X2-2,336K+0,011K2-0,112O-0,005O2,
где
Z – средняя
заболеваемость в регионе, ‰; r2 = 0,244.
Для коэффициента рождаемости уравнение регрессии
имеет вид
R=28,411-0,39838M+0,00260M2+0,00207MO+0,00001MO2-0,25127J+ 0,00044J2+ 1,30967C-0,01694C2-1,98868RM+0,07321RM2+0,23577X-0,00066X2-0,01541K+ 0,00006K2+0,08457O-0,0004O2, r2
= 0,6036,
где
R – средняя рождаемость в
регионе, ‰.
Для среднего значение коэффициента смертности
уравнение регрессии имеет следующий вид:
S=3,604415+0,337774M-0,002462M2+0,042508MO-0,000100MO2+0,085733J-
0,0013J2- 0,9146C+0,010819C2+1,85415RM-0,0672RM2- 0,213081X+ 0,00077X2+ 0,063070K-0,000203K2-0,025376O+0.000050O2 при r2 =
0,3638,
где
S – средняя смертность в
регионе, ‰.
Остатки регрессионных уравнений – это разности
между ретроспективными данными и значениями, полученными по построенным регрессионным
уравнениям. Остатки в приведённых выше уравнениях не превосходят 20 %, но
гетероскедастичны [3], т. е. не соответствуют равномерному закону распределению
по методу Дарбина-Уотсона на уровне значимости 0,05. Применение метода Глейзера
при оценке остатков уравнений позволит изменить вид регрессионных зависимостей
и повысить их эффективность.
Литература:
1.
Регионы
России. Социально-экономические показатели. 2012: Стат. сб. / Росстат. - М., 2012. - 990 с.
2.
Боровиков
В. STATISTICA: искусство анализа
данных на компьютере / В. Боровиков. – М.: Питер, 2001. –. 650 с.
3.
Дрейпер
Н.Р. Прикладной регрессионный анализ / Н.Р. Дрейпер, Г. Смит. – М.: Вильямс,
2007. – 912 с.