Нестерюк Г.В

Национальный горный университет, Украина

Математические модели и вычислительные схемы восстановления смесей распределений

Одним из требований к автоматизированным системам обработки информации является создание программных средств (ПС), которые позволяют наиболее адекватно восстановить существующие закономерности  наблюдаемых явлений или событий. Последнее достигается как за счет уменьшения инструментальных погрешностей эксперимента,  так и путем использования вычислительных систем обработки данных, которые наиболее вероятно восстанавливают имеющиеся зависимости.

В случае, если информация носит вероятностный  характер, состав  ПС автоматизированных систем обработки информации, или, иначе - данных (АСОД), чаще неоднородный. Это объясняется разнообразием вычислительных схем теории вероятностей и математической статистики, которые  предназначены для решения одной и той же по своему характеру задачи. Особенно подобная неопределенность просматривается при воссоздании функции распределения по выборочным данным. При этом, задание идентификации того или иного распределения сводится к выбору наиболее достоверного распределения из множества типов, предоставленных к исследованию. В общем случае решение подобного задания может быть найдено путем, например, перебором всех моделей. Воспроизведенная таким способом функция распределения является наиболее достоверной среди заданного множества, но может быть неадекватной относительно природы исследуемого эксперимента. Подобное противоречие реализовано практически во всех ПС АСОД и пакетах прикладных программ.

Для решения задач нахождения наиболее правдоподобных оценок параметров смесей вероятностных распределений использование классических методов математической статистики неэффективно из-за значительных вычислительных трудностей.  Выход из данной неопределенности можно найти, например, за счет введения моделей смесей распределений. Наиболее распространенными и эффективными методами восстановления смеси являются модификации метода максимальной правдоподобности. Это ЕМ, SEM та СЕМ методы. Очевидно, впервые итерационная процедура типа ЕМ алгоритма, которая позволяет находить численное решение задания максимизации функции правдоподобности при разделении смесей распределения вероятностей, была предложена в работе МакКендрика (McKendrick, A.G. (1926) Applications of Mathematics to Medical Problems). Название ЕМ алгоритм было предложено в работе, посвященной применению метода максимальной правдоподобности к статическому оцениванию по неполным статистическим данным. Возможно, потому зарубежные источники традиционно ссылаются  на эту статью, как на первую работу с ЕМ алгоритмом.

Как правило,  ЕМ алгоритм применяется при решении задач двух типов. К первому типу можно отнести статистические задания, которые связаны с анализом  действительно неполных данных, когда некоторые статистические данные отсутствуют в силу каких-либо причин.

Ко второму типу -  статистические задачи, в которых функция правдоподобности имеет вид, который не допускает удобных аналитических методов исследования, но который допускает серьезные упрощения, если в задание ввести дополнительные «ненаблюдаемые» (отсутствующие) величины. Примерами прикладных заданий второго типа является распознавание образов, реконструкции изображений. Математическую суть этих прикладных заданий составляют задания кластерного анализа, классификации и разделения смесей вероятностных распределений. Классический ЕМ алгоритм принадлежит к категории, так называемых, «жадных» алгоритмов (greedy algorithms) в том понимании, что он «кидается» на первый локальный максимум, который попался. Иначе, будучи методом локальной  оптимизации, он приводит не к глобальному максимуму функции правдоподобности, а к тому локальному максимуму, который находится ближе всего к начальному значению.

Самый простой способ противодействия этому свойству состоит в том, чтобы не ограничиваясь единственным начальным приближением и, вероятно, единственной траекторией ЕМ алгоритма, реализовать несколько траекторий, задав несколько разных начальных приближений, а потом выбрать тот результат,  правдоподобность которого есть самой большой из всех реализованных ЕМ алгоритмом. Но при таком подходе остается неясным ответ на вопрос о том, каким механизмом целесообразнее пользоваться при переходе от одного начального приближения к другому. Когда начальное приближение задается случайно, без дополнительной информации, нельзя достаточно определить распределение вероятностей, относительно которому следует генерировать очередное начальное приближение.  

Другой способ, который оказался достаточно эффективным, состоит как бы в случайном, но целенаправленном «стряхивании» наблюдений (выборки) на каждой итерации. Этот способ лежит в основе на SЕМ алгоритма, название которого – аббревиатура термина Stochastic EМ-algorithm (случайный  ЕМ алгоритм) и СЕМ-алгоритма (Classification EM-algorithm) так называемом классификационном ЕМ-алгоритме.

Вывод: Актуальным является применение описанных методов  для повышения точности статистических данных. Особенно актуально применение их в медицине для группирования статистических данных,  разграничение их по качественным признакам , расчленение массы наблюдений на типовые составные части для нахождения закономерностей и зависимостей между ними.

 

Литература:

1.     McKendrick, A.G. (1926) Applications of Mathematics to Medical Problems, Proc. Edinb. Math. Soc.

2.   Dempster, A. P., Laird, N. M. and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. J. Roy. Statist. Soc. Ser.