Медицина.Клиническая медицина
Ситало С.Г.,Ельчанинова
Т.И.,Радченко В.В.,Виноградова И.Н.
МОДЕЛИРОВАНИЕ
СИСТЕМЫ ПРОГНОЗИРОВАНИЯ влияния загрязнения воздуха на здоровье НА
ОСНОВЕ СЕТИ БАЙЕСА
Кафедра педиатрии, семейной медицины
и клинической лабораторной диагностики ФПО Днепропетровской медакадемии
Создание системы прогнозирования
состояния экологически опасных объектов обусловлено
следующими обстоятельствами:
- накоплением и обработкой
больших объемов статистической и аналитической информации;
- комплексным анализом возможных
источников загрязнения воздуха;
- анализом влияния структуры экономики государства и отдельного региона
(развития промышленности) на экологическое состояние водушной
среды;
- факторный анализ возможных последствий
загрязнения;
-
моделированием сценариев возможного экологически
опасного выброса.
Влияние
факторов носит вероятностный и неопределенный характер,
поэтому для расчета степени адекватности
гипотезы об экологическом состоянии
водушной среды целесообразно
использовать байесовский подход.
Существуют два способа
обучения байесовских сетей на основе классификации: уточнение параметров сети,
если структура сети известна, и выбор из множества моделей, используя введенную
метрику ко всей базе классов.
Отмечают четыре преимущества байесовских сетей
как средства получения данных:
• поскольку в модели определяются зависимости
между всеми переменными, то легко обрабатываются ситуации, когда значения
некоторых переменных неизвестны;
• построенные байесовские сети просто
интерпретируются и позволяют на этапе прогнозного моделирования легко выполнять
анализ по сценарию "что если ...";
• подход позволяет естественным образом совмещать закономерности, выведенные из данных и фоновые
знания, полученные в явном виде, например, от экспертов;
•
использование байесовских сетей позволяет избежать проблемы переобучения
(overfitting), т.е. чрезмерного усложнения модели, чем страдают многие методы
(например, деревья решений и индукция правил) при слишком
буквальном следовании распределению зашумленных данных.
Несмотря на простоту,
скорость и интерпретацию результатов, байесовского алгоритм имеет недостатки:
• перемножать условные
вероятности корректно только тогда, когда все входные переменные действительно
статистически независимы; допущение этой независимости и обуславливает
приставку “наивно-” в названии алгоритма, хотя, по приведенным примерам, он показывает неплохие практические
результаты даже при несоблюдении условия статистической независимости;
корректно данная ситуация обрабатывается только более сложными методами,
основанными на обучении байесовских сетей ;
·
невозможна
непосредственная обработка непрерывных переменных - их требуется разбивать на
множество интервалов, чтобы атрибуты были дискретными; такое разбиение в ряде
случаев приводит к потере значимых закономерностей ;
·
“наивно-байесовский”
подход учитывает только индивидуальное влияние входных переменных на результат
классификации, не принимая во внимание комбинированного влияния пар или троек
значений разных атрибутов , что было бы полезно с точки зрения прогностической
точности, но значительно увеличило бы количество проверяемых комбинаций.
Сети Байеса активно использовались для
формализации знаний экспертов в экспертных системах, но с недавних пор их стали
применять для получения знаний из наборов данных.
Теория
построения Байесовских сетей основана на предположении, что события являются исчерпывающими и не пересекаются. Если это условие не выполняется, то результаты применения сети будут неконсистентными (т.е. неточными). В
случае если события являются
исчерпывающими и не пересекаются, то вероятность события можно
вычислить с помощью условных вероятностей.
Модель
построенной байесовской сети при низком и высоком уровне загрязнения окружающей
среды представлена на рисунках .

Рис.. Модель байесовской
сети при низком уровне загрязнения окружающей среды

Рис..
Модель байесовской сети при высоком уровне загрязнения окружающей среды.
Дальнейшим
направлением исследований является
построение динамической байесовской сети, которая позволит повысить точность и
чувствительность работы модели в исследуемой предметной области.
Литература
1.Heckerman D. "Bayesian Networks for Data
Mining". Data Mining and Knowledge Discovery. - 1997. - № 1. - P. 79-119.
2. Brand E.,
Gerritsen R. Naive-Bayes and Nearest Neighbor // DBMS. - 1998. - № 7.
3. Rybarczyk H., Elkaim B., Ochs L., Loquet N. Analysis of the trophic network
of a macrotidal ecosystem: the Bay of Somme // Estuar. Coast. and Shelf Sci. – 2003. – 58. –
P. 405 – 421.