Программное обеспечение для восстановления смесей распределений

Нестерюк Г.В

Национальный горный университет, Украина

Программное обеспечение для восстановления смесей распределений

Для решения задач по отысканию наиболее правдоподобных оценок параметров смесей вероятностных распределений наиболее эффективным и простым оказывается использование EM алгоритма и его модификации - SEM алгоритма. Другие методы, такие, как метод моментов или метод хи-квадрата, приводят к более сложным вычислительным схемам.

ЕМ алгоритмом принято называть достаточно работоспособную схему построения процедур итерационного типа для численного решения задания, поиска экстремума целевой функции в разнообразных задачах оптимизации. В частности, в прикладной статистике эта схема достаточно эффективна для поиска оценок максимальной правдоподобности в ситуациях, когда функция правдоподобности имеет сложную структуру, из-за которой другие методы оказываются неэффективными или не могут быть использованы.

Очевидно, впервые итерационная процедура типа ЕМ алгоритму, которая позволяет находить численное решение задания максимизации функции правдоподобности при разделении смесей распределений вероятностей, была предложена в работе МакКендрика в 1926 году. Потом, после достаточно большого перерыва, эта идея опять появилась в работах Хили и Уэстмакотт (1956), Шлезингера (1965, 1968г.), Вульфа (1970), а потом развита и систематически исследована в работах Демпстера, Лэрда и Рубина в 1977. Название ЕМ алгоритм получил благодаря работе, посвященной использованию метода максимальной правдоподобности статистического оценивания по неполным статистическим данным.

Основные свойства ЕМ алгоритма были описаны еще в работе Шлезингера, а заново доказаны и развиты в работах Демпстера, Эверитта и Хэнда (1984), Вю (1983), Бойля(1983), Рендера и Уолкера (1984). Литература по информации о ЕМ алгоритме и его использовании для решения заданий из конкретных областей достаточно велика. Пересчитать все работы практически невозможно. Ограничимся упоминанием книг, которые посвящены ЕМ алгоритму: Литтл и Рубин (1991), McLachlan and Krishnan (1997), книги, в которых ЕМ алгоритму уделено значительное - Айвазян и др (1989), Tanner(1993), а также в докладах Bilmes (1998) и Figueiredo (2004).

На сегодняшний день существует не так уж много программных пакетов для анализа смесей распределений. Среди таких пакетов можно назвать КЛАСС-МАСТЕР, MIX и EMMIX, Fa_Mix.

Пакет КЛАСС-МАСТЕР решает задачу классификации способами кластерного анализа, линейного и квадратического дискриминантного анализа и расщепления смесей L-размерных нормальных распределений ( L =1,5).

Существуют программные системы, которые предназначены исключительно для анализа вероятностных законов распределений согласно экспериментальным данным. Например, в Новосибирском государственном техническом университете разработана программная система для статистического анализа одномерных непрерывных случайных величин, которая охватывает 26 законов и семейств распределений. В обновленной версии системы, множество распределений пополнено смесями и усеченными законами.

Среди более развитых систем для анализа смесей распределений можно выделить MIX и EMMIX. MIX позволяет воссоздавать смеси как непрерываных (нормальных, логнормальных, гамма, экспоненциальных, Вейбула), так и дискретных (биномиальных, отрицательных биномеальных и Пуассона) распределений, хотя только для одномерного случая. Определение оценок параметров в системе проводится методом максимальной правдоподобности совместно с методом Ньютона.

Авторами отмечена эффективность разработанного алгоритма при восстановлении смеси из пятнадцати компонентов. Определенным недостатком является отсутствие автоматического выбора данного количества. Система EMMIX позволяет работать со смесями многомерных распределений. Ее значительным преимуществом, в том числе при сравнении с мощными статистическими пакетами, есть возможность восстановления смесей не только нормальных распределений, но и t-распределений. Определение оценок параметров проводится ЕМ алгоритмом. В отличии от МІХ, существует возможность анализа количества компонентов смесей. Кроме того, в системе реализованы модули моделирования смесей с заданными параметрами и классификации данных с помощью дискриминантного анализа.

Для обработки неоднородных статистических данных разработана АС Fa_Mix, которая реализует вычислительные схему идентификации и воссоздания:

· классических распределений,

· смесей и сплайнов-распределений из класса нормальных,

· классических распределений, смесей и сплайнов-распределений из класса нормальных,

· экспоненциальных и Вейбулла, а также аппроксимации смесей сплайн-экспоненциальным распределением с параболическим аргументом.

Вывод: Обзор существующих на рынке программных средств позволяет сделать вывод, что на данный момент количество систем обработки неоднородных статистических данных на основе моделей смесей недостаточно. Есть необходимость в разработке новых пакетов и для их большей эффективности, использование и восстановление смесей ЕМ алгоритма и его модификаций.

Литература:

1. Айвазян С.А. Программное обеспечение по статистическому анализу данных: методология сравнительного анализа и выборочный обзор рынка / С.А Айвазян, В.С. Степанов.

2. Королев В.Ю. ЕМ-алгоритм, его модификации и применение /
В.Ю. Королев. 2007. – 102 с.