Математика/3.Теорія ймовірностей і математична статистика

Кубайчук О.О.

Європейський університет

 

АСИМПТОТИКА ОЦІНКИ ДЛЯ БАЄСОВОГО ПОРОГУ

Розглядається задача класифікації деякого обєкту  за спостереженням його числової характеристики . Вважаємо, що обєкт може належати лише одному з двох класів. Розглядаємо порогові класифікатори вигляду

                                                                              

тобто обєкт відносять до першого класу, якщо його характеристика потрапляє в проміжок  і до другого класу в іншому випадку. Приклад такої класифікації  визначення людини (об’єкт) як хворої (другий клас), якщо її температура (характеристика ) перевищує  ( або рівень гемоглобіну в крові перевищує 84 одиниці) (поріг ) і є меншою за  (рівень гемоглобіну є меншим за 72 одиниці) (поріг ). Можливий також варіант

                                                                              

Найкращим (баєсовим) вважають поріг , при якому  має найменшу ймовірність помилки. Обєкт , у якого спостерігається деяка числова характеристика , може належати одному з двох класів; невідомий номер класу, якому належить  позначимо . Вважаються відомими апріорні ймовірності , . Характеристика  – випадкова, її розподіл залежить від : . Розподіли  невідомі, але будемо вважати, що вони мають неперервні щільності відносно міри Лебега  .

Методи оцінки і основні результати

Множину всіх класифікаторів позначимо . Ймовірність помилки класифікатора:

                                                 

                  

Баєсовим класифікатором у класі  називають класифікатор , на якому досягається мінімум :

                                                 .

Поріг  баєсового класифікатора є баєсовим порогом:  .

Для  маємо:    

де

,  .

Для  маємо:    

де

                 , .

Найкращим (баєсовим) вважають поріг , при якому  має найменшу ймовірність помилки. При цьому виникає проблема вибору (оцінки) порогу на основі навчаючої вибірки. Найбільш поширеними методами оцінювання  за повністю класифікованою вибіркою є емпірично-баєсова класифікація (ЕБК) [3;5] та метод мінімізації емпіричного ризику (МЕР) [2;7].

Розглянемо перший метод. Вважаємо, що навчаюча вибірка отримана із суміші зі змінними концентраціями. Будемо досліджувати асимптотичну поведінку цього методу.

Розглянемо випадок . Функції  (а, значить, і ) вважаються невідомими. Їх можна оцінити за даними, що являють собою вибірку із суміші зі змінними концентраціями: ,  – незалежні між собою при фіксованому  і , де  – відома концентрація об’єктів першого класу у суміші в момент -го спостереження [6]. Для оцінки функції розподілу  використовують зважені емпіричні функції розподілу

                                           ,

де  – індикатор події ,  – вагові коефіцієнти:

                 ,  ,

                             (див. [6]).

Для оцінки щільностей розподілів  можна скористатися ядерними оцінками

                                       ,

де  – ядро (щільність деякого ймовірнісного розподілу),  – параметр згладжування [1;4].

Оцінка ЕБК будується наступним чином: знаходиться множина  всіх розвязків рівняння  і на роль оцінки використовується , де

    ,

           ,   ;

                            ,   .

Будемо вважати, що виконуються наступні умови:

(А).   існує і є єдиною точкою глобального мінімуму  ( є точкою глобального мінімуму ,  ).

().  Існують границі ,    і .

Теорема 1. Нехай виконуються (А), (), існують і є неперервними щільності , , ,  – неперервна функція

                                                 .

Тоді  ( , ) за ймовірністю при .

Далі оцінку порогу  будуємо методом мінімізації емпіричного ризику. Знову вважаємо, що навчаюча вибірка отримана із суміші зі змінними концентраціями. Припущення щодо оцінок для  і  такі ж як і раніше. Дослідимо асимптотичну поведінку цього методу. Оцінка МЕР визначається як , де

                ,

де

           ,   .

Отже, ,   . Будемо вважати, що виконуються наступні умови:

(А).   існує і є єдиною точкою глобального мінімуму .

().  Існують границі ,    і .

Теорема 2. Нехай виконуються (А), (),    неперервні функції на . Тоді  (, ) за ймовірністю при .

Висновки

В даній роботі знайдено умови збіжності за ймовірністю оцінок для баєсового порогу, побудованих методом мінімізації емпіричного ризику і методом емпірично-баєсової класифікації для вибірки із суміші зі змінними концентраціями.

Література:

1.     Биллингсли П. Сходимость вероятностных мер. – М., 1977.

2.     Вапник В.Н. Индуктивные принципы поиска эмпирических закономерностей // Распознавание . Классификация. Прогноз, Вып.1. – М., 1989.

3.     Деврой Л., Дьерфи Л. Непараметрическое оценивание плотности. – М., 1988.

4.     Іванько Ю.О. Асимптотика ядерних оцінок щільностей та їх похідних, побудованих за спостереженнями із суміші зі змінними концентраціями // Вісник КНУ, сер. Математика. Механіка. – 2003. – №9. – С. 29–35.

5.     Іванько Ю.О., Майборода Р.Є. Експоненціальні оцінки емпірично-баєсового ризику при класифікації суміші зі змінними концентраціями // Український математичний журнал. – 2002. – Т.54, №10. – С. 1421–1428.

6.      Майборода Р.Є. Статистичний аналіз сумішей. – К., 2003. 7. Vapnik V.N. The nature of Statistical Learning Theory. – N. Y., 1996.