Математика/3 – Теория вероятностей и математическая статистика

К.т.н. Игнатьев В.М., Фурсина А.C.

Южно-Российский государственный политехнический университет, Россия

СТАТИСТИЧЕСКИЙ АНАЛИЗ ПОТРЕБЛЕНИЕ ПРОДУКТОВ

ПИТАНИЯ В РЕГИОНАХ РОССИИ

При анализе рассматриваются следующие данные: удельное потребление мяса в год на душу населения (кг), молока (л), количество яиц (шт), сахара (кг), растительного масла (л), хлеба и хлебобулочных изделий (кг), картофеля (кг) и овощей (кг). В качестве зависимых факторов выбраны: продолжительности жизни населения, рождаемость, смертность и заболеваемость. При анализе данных воспользуется данными Росстата за 2011 год [1]. Одним их эффективных методов сравнения регионов является кластерный анализ. При проведении кластеризации регионов с помощью метода k-средних [2] значения исходных данных нормализуются по формуле K_j = (M – I_j) / σ, j = 1..80,

где M – среднее данного; σ – среднеквадратичное отклонение данного; в качестве I последовательно используются удельное потребление каждого продукта питания и средняя заболеваемость в регионе. Кластерный анализ в пакете STATISTICA разбил регионы в 2011 г. на четыре кластера с центрами, приведёнными на рис. 1.

Рисунок 1 – Диаграмма центров кластеров

Число регионов РФ в 2011 г. – 80. Список регионов приведён в табл. 1.

Таблица 1 – Номера и список регионов Российской Федерации

№	Регион	№	Регион	№	Регион
1	Белгородская область	28	г. Санкт-Петербург	55	Ульяновская область
2	Брянская область	29	Республика Адыгея	56	Курганская область
3	Владимирская обл.	30	Республика Калмыкия	57	Свердловская область
4	Воронежская область	31	Краснодарский край	58	Тюменская область
5	Ивановская область	32	Астраханская область	59	Челябинская область
6	Калужская область	33	Волгоградская область	60	Республика Алтай
7	Костромская область	34	Ростовская область	61	Республика Бурятия
8	Курская область	35	Республика Дагестан	62	Республика Тыва
9	Липецкая область	36	Республика Ингушетия	63	Республика Хакасия
10	Московская область	37	Кабардино-Балкарская Республика	64	Алтайский край
11	Орловская область	38	Карачаево-Черкесская Республика	65	Забайкальский край
12	Рязанская область	39	Республика Северная Осетия -Алания	66	Красноярский край
13	Смоленская область	40	Чеченская Республика	67	Иркутская область
14	Тамбовская область	41	Ставропольский край	68	Кемеровская область
15	Тверская область	42	Республика Башкортостан	69	Новосибирская обл.
16	Тульская область	43	Республика Марий Эл	70	Омская область
17	Ярославская область	44	Республика Мордовия	71	Томская область
18	г. Москва	45	Республика Татарстан	72	Республика Саха (Якутия)
19	Республика Карелия	46	Удмуртская Республика	73	Камчатский край
20	Республика Коми	47	Чувашская Республика	74	Приморский край
21	Архангельская обл.	48	Пермский край	75	Хабаровский край
22	Вологодская область	49	Кировская область	76	Амурская область
23	Калининградская обл	50	Нижегородская область	77	Магаданская область
24	Ленинградская обл.	51	Оренбургская область	78	Сахалинская область
25	Мурманская область	52	Пензенская область	79	Еврейская авт. обл.
26	Новгородская обл.	53	Самарская область	80	Чукотский автономный округ
27	Псковская область	54	Саратовская область	80	Чукотский автономный округ

Во второй кластер вошло 14 регионов из 80. Это следующие регионы: 5,6,16,21,36,40,61,62,65,67,73,74,78,80. Для этого кластера характерна: самая низкая доля потребления мяса, молока; яиц, сахара, хлеба и овощей. Доля потребления картофеля и растительного масла средняя. Заболеваемость довольно высокая. Третий кластер составляют 15 регионов: 1,4,8,9,10,14,29,31,32,37,41,44, 70. Доля потребления мяса и молока высока и находится на 2-м месте. Потребление яиц, хлеба, овощей самое высокое. Для третьего кластера характерна довольно высокая заболеваемость.

Четвертый кластер составляют 15 регионов: 17,18,20,23,24,25,27,28,30, 34,42,45,50,51,52,54,57,77. В 4 кластере наблюдается низкое потребление мяса, молока, яиц, сахара, растительного масла, хлеба, картофеля и овощей. Заболеваемость для данного кластера принимает среднее значение.

В первый кластер вошли остальные 33 региона. Регионы этого кластера имеют высокую долю потребления картофеля, среднюю долю потребления остальных продуктов. Малое удельное потребление овощей и самую высокую заболеваемость. Основная задача кластерного анализа заключается в выделении по фактическим данным резко различающихся групп (кластеров) объектов (регионов), которые схожи между собой внутри каждой из групп.

При использовании метода главных компонент [2] показатели по уменьшению степени разброса выстроились в последовательность: удельное потребление картофеля, овощей, молока, хлеба, сахара, продолжительность жизни, удельное потребление яиц, растительного масла и мяса. Вместо заболеваемости была взята средняя продолжительность жизни в регионе.

Регрессионный анализ позволит построить зависимости между показателями рассматриваемой системы. При проведении регрессионного анализа [3] были построены регрессионные уравнения с значимыми скорректированными коэффициентами детерминации на уровне значимости 0,05. Все уравнения значимы согласно дисперсионному анализу по критерию Фишера. Вид уравнения регрессии для продолжительности средней жизни в регионе следующий:

P = 66,87-0,3131M+0,002M²+0,01362MO+0,00001MO²+0,01956J-0,00004J²+ 0,215C -0,00045C²-1,14RM+0,03682RM²+0,12376X-0,00062X²-0,01856K+ 4·10^-5K²+0,05448O-0,00015O² при r²= 328,

где Р – средняя продолжительность жизни, лет; M – удельное потребление мяса, кг/чел. за год; MO – потребление молока, л/чел. за год; J – потребление яиц, шт./чел. за год; C – потребление сахара, кг/чел.; RM – растительное масло, л/чел.; X – потребление хлеба, кг /чел; K – потребление картофеля, кг/чел.; O – потребление овощей, кг/чел.; r² – скорректированный коэффициент корреляции.

Для коэффициента заболеваемости уравнение регрессии имеет вид

Z = 1120,853-1,95M+0,015M²+1,023MO-0,004MO²+1,082J-0,001J²+74,832C-0,99C²- 66,220RM+2,284RM²-21,663X+0,094X²-2,336K+0,011K²-0,112O-0,005O²,

где Z – средняя заболеваемость в регионе, ‰; r² = 0,244.

Для коэффициента рождаемости уравнение регрессии имеет вид

R=28,411-0,39838M+0,00260M²+0,00207MO+0,00001MO²-0,25127J+ 0,00044J²+ 1,30967C-0,01694C²-1,98868RM+0,07321RM²+0,23577X-0,00066X²-0,01541K+ 0,00006K²+0,08457O-0,0004O², r² = 0,6036,

где R – средняя рождаемость в регионе, ‰.

Для среднего значение коэффициента смертности уравнение регрессии имеет следующий вид:

S=3,604415+0,337774M-0,002462M²+0,042508MO-0,000100MO²+0,085733J- 0,0013J²- 0,9146C+0,010819C²+1,85415RM-0,0672RM²- 0,213081X+ 0,00077X²+ 0,063070K-0,000203K²-0,025376O+0.000050O² при r² = 0,3638,

где S – средняя смертность в регионе, ‰.

Остатки регрессионных уравнений – это разности между ретроспективными данными и значениями, полученными по построенным регрессионным уравнениям. Остатки в приведённых выше уравнениях не превосходят 20 %, но гетероскедастичны [3], т. е. не соответствуют равномерному закону распределению по методу Дарбина-Уотсона на уровне значимости 0,05. Применение метода Глейзера при оценке остатков уравнений позволит изменить вид регрессионных зависимостей и повысить их эффективность.

Литература:

1. Регионы России. Социально-экономические показатели. 2012: Стат. сб. / Росстат. - М., 2012. - 990 с.

2. Боровиков В. STATISTICA: искусство анализа данных на компьютере / В. Боровиков. – М.: Питер, 2001. –. 650 с.

3. Дрейпер Н.Р. Прикладной регрессионный анализ / Н.Р. Дрейпер, Г. Смит. – М.: Вильямс, 2007. – 912 с.