МАТЕМАТИКА / 4.Прикладная математика

Стрюков Р.К.

Воронежский Государственный Университет, Россия

Модифицированный метод ближайших соседей

Введение

В данной статье рассматривается один из возможных подходов к классификации – модифицированный метод ближайших соседей [1,2]. В качестве основных особенностей метода можно выделить:

- использование весовых коэффициентов, которые используются для расчета расстояния;

- использование различных правил принятия решений для отнесения объекта к определенному классу.

Модифицированный метод ближайших соседей

Подробное описание данного метода можно найти в [3], он основан на вычисление расстояния до  ближайших соседей. Данное число k является одним из параметров метода и его изменение оказывает влияние на результаты классификации. При  отношение некоторого объекта к классу будет приниматься на основе единственного ближайшего соседа (классический метод ближайшего соседа), в результате чего метод теряет обобщающую способность. С другой стороны, если задать параметр k слишком большим, то метод не будет учитывать локальные особенности объекта. Поэтому значение параметра k необходимо задавать в зависимости от решаемой задачи и требуемых результатов классификации [5].

Пусть  есть множество объектов, каждый из которых  характеризуется определенным набором признаков . Каждый признак  оценивается по соответствующей шкале . Пространством признаков называется множество , тогда каждому объекту  соответствует векторная оценка .

Пусть имеется разбиение на классы  и для некоторого нового объекта  определены  ближайших соседей, которые имеют с ним наибольшую схожесть. Также рассчитано множество расстояний  до каждого из соседей , при этом известно, к какому классу принадлежат соседи-объекты. На основе имеющихся данных необходимо отнести объект  к некоторому классу.

Данную задачу можно рассматривать в виде задачи группового выбора на основе голосования [5]: -ым голосом будем считать номер класса, к которому относится -ый ближайший сосед.

Таким образом,  ближайшим соседям соответствует выборка длины , каждый элемент которой - номер класса. Введем различные характеристики классов и ближайших соседей объекта .

Пусть из  ближайших соседей  относятся к классу ,  - к классу ,…,  - к классу , так что . Весом класса  назовем величину  - относительное количество объектов в классе.

Рангом  класса  будем называть порядковый номер класса в ранжировании классов по невозрастанию весов  (или количеству ближайших соседей объекта ).

Средним расстоянием до класса  назовем величину

.

Кратчайшим расстоянием  до класса  назовем минимальное расстояние от  до ближайших соседей из класса , т.е.

.

Вкладом объекта  в класс  называется величина

.

Сформулируем несколько типов правил об отнесении объекта  к некоторому классу.

1)       правило простого большинства [5]: новый объект необходимо отнести к тому классу , объекты которого занимают в выборке более половины мест, т.е. ;

2)       правило относительного большинства [5]: новый классифицируемый объект будет отнесен к тому классу, элементов которого окажется больше в выборке из  ближайших соседей, т.е. к тому классу, который наберет наибольшее количество голосов

;

3)       правило взвешенного большинства заключается в выборе такого класса , номер которого определяется формулой

;

4)       правило среднего: новый объект относится к тому классу , до которого среднее расстояние минимально, т.е.

5)       правило, основанное на критериях качества классификации, состоит в том, что объект относится к тому классу, чтобы вновь полученное разбиение оптимизировало выбранный критерий качества. Например, одним из критериев является компактность классов, поэтому считая, что чем ближе объект класса к объекту , тем больше он вносит вклад в классификацию, можно предложить следующее правило классификации: объект  относится к тому классу, для которого его вклад  максимальный.

В краткой форме рассмотрим рекомендации по выбору правила классификации:

- если расстояния от  до каждого из ближайших соседей приблизительно одинаковы, то можно воспользоваться правилами простого или относительного большинства;

- если ближайшие соседи разбиваются на классы приблизительно одинаковой мощности, то, наоборот, имеет смысл использовать те правила, которые в большей степени учитывают расстояния (например, правило среднего);

- правило взвешенного большинства учитывает и количество объектов в классе (через весовой коэффициент ), и расстояние до этих объектов;

- если классов достаточно много и веса  приблизительно равны, то необходимо выполнить выборку таких классов, чтобы их суммарный вес был больше, чем , а затем применить одно из правил.

Учитывая различные критерии качества классификации, можно получить и другие правила.

Заключение

Несмотря на простоту реализации, данный метод показывает хорошие результаты при классификации. Можно выделить следующие преимущества:

-                   гибкость в выборе правила, на основе которого происходит отнесение объекта к одному из классов, благодаря чему можно оптимизировать алгоритм;

-                   наличие объясняющей способности и возможности интерпретации результатов классификации;

-                   довольно простая программная реализация.

Литература:

1.        Айвазян С.А. Классификация многомерных наблюдений / С.А. Айвазян, З.И. Бежаева, О.В. Староверов. – М. : Статистика, 1974. – 238 с.

2.        Бююль А. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. – СПб. : ДиаСофтЮП, 2002. – 608 с.

3.        Воронцов К.В. Лекции по метрическим алгоритмам классификации [электронный ресурс]. URL:http://www.ccas.ru/frc/papers/voron04mpc.pdf.

4.                 Base Group Labs, технологии анализа данных [электронный ресурс]. URL:https://basegroup.ru/community/articles/knn

5.                 Робертс Ф.С. Дискретные математические модели с приложениями к социальным, биологическим и экономическим задачам / Ф.С. Робертс. – М. : Наука, 1986. – 496 с.