Математика 5. Математическое моделирование
Чорна Н.О.
Дніпропетровський
державний аграрний університет, Україна
Обробка якісних даних в багатофакторній регресійній моделі
Багатофакторна
регресійна модель має широке застосування при вивченні залежності економічних
явищ та процесів, маркетингових дослідженнях. На залежну змінну поряд з
кількісними факторами ціною, обсягами виробництва, доходами впливають і якісні:
якість продукції, стать, сезонні коливання, зміни в економіці. Тому потрібно
вміти вводити якісні дані в багатофакторну регресійну модель, оцінювати
параметри та аналізувати отриманні результати. На відміну від кількісних
факторів шкала якісних змінних може бути бінарною. Значення «1» відображає
наявність певної якості, а значення «0» – відсутність цієї ознаки. Такі змінні
називаються dummy-змінними. Шляхом лінійних перетворень бінарна шкала може
бути переведена до іншої шкали.
Якісні змінні можуть
використовуватися в моделі поряд з кількісними факторами, а можуть і
самостійно. Для простої лінійної регресії модель з dummy- змінними має вигляд:
Y=a+bX, де b≠0 x=1 або x=0. (1)
Багатофакторна модель для n категорій має наступний вигляд:
Y=a+b1X1+b2X2+…+bnXn-1, (2)
де Xі=
і=1,…n-1.
Таким чином модель поділяється на
декілька підгруп, що описують якісну
властивість і вивчення відбувається по підгрупам. Наприклад, при вивченні попиту на покупку кофе серед чоловіків і
жінок, попит поділяється на дві категорії «обрано чоловіком» або «обрано
жінкою». Одна із категорій визначається базовою і вивчається попит по
відношенню до цієї базової категорії, наприклад, «чоловіки». Якщо в цих
категоріях є відмінності по попиту, то це відображається на коефіцієнтах
перетинів і нахилів. Якщо добавити ще одну категорію «діти», то потрібно ввести
нову якісну змінну, яка буде набувати значення «1» в ситуації «обрано дитиною».
Базова категорія буде відповідати нульовим значенням якісних змінних. Більші
коефіцієнти при якісних змінних будуть вказувати на те, що варіація попиту в
даній категорії є більшою в порівнянні з базовою. Кількість якісних змінних має
бути зваженою до числа спостережень, для того щоб модель була адекватною.
Вважається, що обсяг виборки має бути більшим від числа факторів в 7-8 разів.
Якісні змінні можуть
використовуватися і у сезонному аналізі. Наприклад, потрібно встановити чи
існує вплив сезонних, квартальних, тижневих і т. і. коливань на величину, що
вивчається. Якщо такий вплив існує, то виокремити його від загальної тенденції.
Наприклад, на покупку товарів існує вплив сезонів, вихідних днів, свят. Можна
висунути гіпотезу чи існує такий вплив при покупці товарів через
Інтернет-магазини, чи ні. Аналогом такого дослідження може бути аналіз тижневих
та добових коливань при поданні заяв до закладів вищої освіти через систему
«Електронний вступ» під час вступної кампанії. За допомогою такої системи
абітур’єнти можуть подавати заяви без власної присутності. Це має виключити
фактори, які обмежують присутність: черги, транспорт, вихідні дні, праця на
підприємстві, таке інше. Вступна кампанія триває чотири тижні. Перевіряється
гіпотеза чи є суттєві відмінності на протязі цих тижнів по поданим заявам чи
порядок тижня не має значення.
Для побудови багатофакторної
регресійної моделі використаємо три якісні змінні: Т1,Т2,Т3.
Тоді модель набуває виду:
Y=a+b1Т1+b2Т2+b3Т3, (3)
де Т1 = 1, якщо заяви
подано на першому тижні; Т2 = 1, якщо заяви подано на другому тижні;
Т3 = 1, якщо заяви подано на третьому тижні; Т1 = 0,Т2 = 0,Т3 = 0
– якщо заяви подано на четвертому тижні. Y – кількість поданих заяв на
спеціальність менеджмент у електронному варіанті. Таким чином, базовим обрано останній
четвертий тиждень. Модель було апробовано на даних вступної кампанії 2012 року
ДДАУ на спеціальність менеджмент. В результаті отримано наступну оцінену модель:
Y = 11,57 - 0,85Т1 - 0,42Т2
- 2,14Т3.
Як бачимо, в середньому на
останньому тижні кількість поданих заяв через систему «Електронний вступ»
складала 11 заяв на спеціальність
менеджмент. В інші тижні в порівнянні до останнього тижня заяв було менше, але
не набагато в середньому на 1-2 заяви. Найбільша варіація по кількості поданих
заяв спостерігалась в третьому тижні від 3 до 24. Р-значення коефіцієнтів
нахилів b1, b2, b3 виявились більшими ніж
0,05, це говорить про те, що впливу тижневих факторів не виявлено. Таким чином,
відмінність в кількості поданих заяв обумовлена випадковим фактором.
Далі розглянемо вплив днів тижня
та вихідних днів на кількість поданих заяв. Для побудови багатофакторної моделі
використаємо шість якісних змінних: D1, D2, D3, D4, D5, D6. Тоді модель набуває виду:
Y=a+b1D1+b2D2+b3D3+b4D4+b5D5+b6D6 , (4)
де D1 = 1, якщо заяви подано в
понеділок; D2
= 1, якщо заяви подано у вівторок; …, D6 = 1, якщо заяви подано в суботу; D1=0, D2=0, …, D6=0 – якщо заяви подано в неділю. Y – кількість поданих заяв
на спеціальність менеджмент у електронному варіанті.
За тими ж самими даними отримали
наступну оцінену модель:
Y = 9 + 3D1 + 0D2 + 4,5D3 - 1,5D4 + 1,5D5 + 4,5D6.
В результаті
аналізу встановлено, що середня кількість поданих заяв в неділю становила 9
заяв на спеціальність менеджмент. Середня кількість поданих заяв у вівторок співпадала
з базовою (неділею). В понеділок, середу та суботу варіація по поданим заявам
була найбільшою. Наприклад, по суботам від 3 до 24 заяв. По четвергам та п’ятницям варіація була
невеликою, але в силу від’ємності коефіцієнта при четвертому дні трохи меншою
від базового дня - неділі. Р- значен-ня
коефіцієнтів нахилів b1, b2, …, b6 виявилися більшими ніж 0,05, це говорить про те, що
суттєвого впливу добових факторів не виявлено. Тобто всі варіації спричинені
випадковими факторами. Аналогічні висновки було отримано і при аналізі поданих
заяв на інші спеціальності.
Такими чином, можна стверджувати,
що використання системи «Електронний вступ» вилучає вплив тижневих та добових
факторів, а також факторів вихідних днів. Вона є більш зручною при подачі заяв
під час вступної кампанії, для людей обмежених часовим, транспортним та іншими
факторами.