Математика / 5. Математическое
моделирование
к.ф.-м.
н. Калжанов М.У.
Костанайский
государственный университет
имени
А.Байтурсынова
Алгоритм укрупнения
градаций признаков
Предположим, что признаку y,
характеризующему объекты совокупности, соответствует разбиение
, классы которого состоят из объектов, имеющих одно значение
этого признака. Назовем укрупнением y
разбиение совокупности
, каждый класс которого суть объединения некоторого поднабора
множеств rα.
Значения номинальных признаков не упорядочены , поэтому допустимы любые
укрупнения: классы разбиения R могут быть объединениями
практически любого набора множеств rα. Классы ранговых
признаков упорядочены, поэтому допустимыми укрупнениями таких признаков будем
считать разбиения, классы которых представимы в виде
. При укрупнении количественных признаков мы будем
рассматривать их как ранговые, учитывая лишь порядок их значений; в конечном
итоге разбиение R даст нам интервалы
значений.
В
зависимости от цели исследования качество укрупнения можно оценивать, используя
подходящую вещественную целевую функцию Q(R),
определенную на множестве допустимых разбиений совокупности объектов; при
укрупнении стоит задача максимизации этой функции.
Обозначим
, разбиение, полученное из R перемещением
подмножества объектов rα в класс R1. Обычно относительно
быстро (по сравнению с
) вычисляется величина приращения Q при таком
изменении R:
, этот факт используется в реализованных алгоритмах.
Итерация алгоритма укрепления номинального признака состоит в том, что
поочередно рассматриваются классы исходного разбиения rα (α = 1, …, n). При рассмотрении rα отыскивается l, для которого величина
максимальна, и при
переходе к rα+1 вместо R берется
. Итерации повторяются до тех пор, пока есть положительные
приращения
, после чего улучшенное таким образом R
принимается за искомое оптимальное укрупнение.
Рассмотрим алгоритм укрупнения ранговых признаков. Пусть
. Обозначим R(β) разбиение,
полученное из Rβ заменой двух классов Rl
и Rl+1 на
и
, полагая
Ø. В итерации алгоритма поочередно рассматриваются
пары классов Rl и Rl+1 (l = 1, …, k).
При рассмотрении Rl и Rl+1 отыскивается β, для которого величина Q(R(β))
максимальна (оптимальное β) и при переходе к следующей паре классов
разбиение R заменяется на R(β). Итерации
повторяются до тех пор, пока величина Q(R)
увеличивается.
Рассмотрим, каким образом
отыскивается оптимальное β. Прежде всего заметим, что безразлично, что
максимизировать: Q(R(β)) или P(β)
= Q(R(β)) - Q(R(nl-1)). Для Р выполняется рекуррентное
соотношение P(β) = P(β-1) +
, с использованием которого последовательно вычисляются P(β)
для β = пl-1 + 1, …, nl+1, в том числе и Р(пl).
Величина приращения Q при замене R
на R(β) выражается следующим образом: Q(R(β))
- Q(R) = P(β)
- Р(пl).
Таким образом, отыскивая оптимальное
β, мы одновременно получаем величину приращения при
, мы узнаем, насколько
увеличилась Q(R) в результате итерации.
Пусть
- важные с точки
зрения исследователя признаки. Знание значений признака у позволяет в
той или иной мере предсказывать значения признаков системы Х. Укрупнение
градаций признака у вызывает некоторое уменьшение точности такого
прогноза, поэтому целью укрупнения является минимальная потеря информативности.
Для измерения степени информативности
разбиения R по отношению к признаку х используется коэффициент Валлиса:
,
где
-
доля объектов, имеющих i значение признака х и
содержащихся в j-м классе R,
и ![]()
В нашем случае необходима максимизация
сразу для всех признаков
. Одним из способов построения целевой функции в такой
многоцелевой задаче является суммирование целевых функций:
.
Пусть группа объектов rα, содержащая в классе j, переносится в класс l,
тогда величина приращения
выражается следующим образом:
![]()
,
где
- доля объектов, имеющих
i-е значение признака х и содержащихся в rα,
- доля объектов rα в совокупности. Эта
величина вычисляется
быстрее, чем
, поскольку
суммирование в правой части выражения производится только по одному индексу i,
следовательно, использование приращения
оправдано.
Литература :
1.
Методы
принятия технических решений : Пер. с нем.- Мушик Э., Мюллер П., М.: Мир, 1990.
– 208 С.
2.
Сборник
задач по теории надежности .Половко А.М., Маликов И.М., Жигарев А.Н., Зарудный
В.И. – М. : Советское радио , 1972 .- 408 С.