Синельник С.А.,

К.э.н. Коврижных О.Е.

Набережночелнинский институт Казанского (Приволжского) федерального университета, г. Набережные Челны, Россия

 

Определение меры сходства объектов

в кластерном анализе

 

 «Кластерный анализ» это общее название множества вычислительных процедур, используемых при создании классификации. В результате работы с процедурами образуются группы очень «похожих» объектов или «кластеры». Более точно, кластерный метод это многомерная статистическая процедура, которая выполняет сбор данных, содержащих информацию о выборке объектов, а затем упорядочивает объекты в сравнительно однородные группы.

Примерами использования кластерного анализа являются следующие задачи: информатика – упрощение работы с информацией, визуализация данных, сегментация изображений, интеллектуальный поиск; экономика – анализ рынков и финансовых потоков, выведение закономерностей на фондовых биржах; маркетинг – сегментация рынков, анализ поведения потребителей, позиционирование товаров; астрономия – выделение групп звезд и галактик, автоматическая обработка космических снимков.

Для проведения кластерного анализа данных используют меры сходства [1]. Снит и Сокэл подразделили меры сходства на четыре вида: коэффициенты корреляции; меры расстояния; коэффициенты ассоциативности и вероятностные коэффициенты сходства. Хотя все четыре вида мер сходства широко применялись в свое время, лишь коэффициенты корреляции и расстояния получили широкое распространение [2].

1. Коэффициент корреляции – это показатель характера взаимного влияния изменения двух случайных величин. Он вычисляется по формуле:

, где  – значение -й переменной для -го объекта;  – среднее всех значений переменных -го объекта;  – число переменных.

Значение коэффициента корреляции изменяется от -1 до +1, причем нуль указывает на то, что между объектами нет связи.

Главный недостаток коэффициента корреляции как меры сходства в том, что он чувствителен к форме за счет снижения чувствительности к величине различий между переменными. Кроме того, корреляция, вычисленная этим способом, не имеет статистического смысла.

Несмотря на эти недостатки, коэффициент широко использовался в приложениях кластерного анализа. Хаммер и Каннингхем показали, что при правильном применении кластерного метода коэффициент корреляции превосходит другие коэффициенты сходства, т.к. позволяет уменьшить число неверных классификаций [3].    

2.   Меры расстояния (метрики) пользуются широкой популярностью. Два объекта идентичны, если описывающие их переменные принимают одинаковые значения. В этом случае расстояние между ними равно нулю. Меры расстояния зависят от выбора шкалы (масштаба) измерений и обычно не ограничены сверху. Одним из наиболее известных расстояний является евклидово расстояние, определяемое как

 , где – расстояние между объектами  и ;

– значение -й переменной для -го объекта.

Для придания больших весов более отдаленным друг от друга объектам используют квадрат евклидова расстояния.   

Хорошо известной мерой также является манхеттенское расстояние, или «расстояние городских кварталов» (city-block).

Можно определить и другие метрики, но большинство из них являются частными формами специального класса метрических функций расстояния, известных как метрики Минковского.

Существуют расстояния, не являющиеся метриками Минковского, и наиболее важное из них – расстояние Махаланобиса . Формула метрики:

, где  – общая внутригрупповая дисперсионно-ковариационная матрица, а  и  – векторы значений переменных для объектов  и . В отличие от метрик Минковского и евклидовой, эта метрика связана с корреляциями переменных с помощью матрицы дисперсий-ковариаций.

Недостаток мер расстояния состоит в том, что оценка сходства сильно зависит от различий в сдвигах данных. Более того, метрические расстояния изменяются под воздействием преобразований шкалы измерения переменных.

3.  Коэффициенты ассоциативности применяются, когда необходимо установить сходство между объектами, описываемыми бинарными переменными, причем 1 указывает на наличие переменной, а 0 – на ее отсутствие. Существуют три меры, которые широко используются: простой коэффициент совстречаемости, коэффициент Жаккара и коэффициент Гауэра.

4.  Вероятностные коэффициенты сходства. Радикальное отличие этого типа от описанных выше заключается в том, что, сходство между двумя объектами не вычисляется. При образовании кластеров вычисляется информационный выигрыш от объединения двух объектов, а те объединения, которые дают минимальный выигрыш, рассматриваются как один объект. Вероятностные меры пригодны лишь для бинарных данных  и прилагаются непосредственно к исходным данным до их обработки.

То, что некоторые вещи обнаруживают между собой сходство или различие, является весьма важным моментом для процесса классификации. Проблема сходства состоит не в простом распознавании сходных или несходных вещей, а в том, какое место эти понятия занимают в научных исследованиях.

Сегодня кластерный анализ является одним из наиболее эффективных инструментов обработки больших объемов данных и используется повсеместно, где применяется вычислительная техника.

Литература

1.                 Mark S. Aldenderfer, Roger K. Blashfield. Cluster Analysis. – SAGE Publications, Inc, 1984. – 88 p.

2.                 Сокэл Р.Р. Кластер-анализ и классификация: предпосылки и основные направления. В кн: Классификация и кластер // Под ред. Дж.Вэн Райзина М: Мир, 1980, с. 7-19

3.                 Hamer R., Cunningham J. Cluster analyzing profile data confounded with interrater differences: a comparison of profile association measures. – Applied Psychological Measurement, 1981, p. 63-72