Наджаджрех Р. Х.А.

Волгоградский государственный технический университет, Россия

Сравнительный анализ кластерных методов сегментирования рынка

 

На сегодняшний день кластерный анализ является одним из основных подходов идентификации однородных групп потребителей. В данной статье речь пойдет о наиболее популярных методах кластерного сегментирования рынка. Определяя метод кластеризации, мы определяем, как должны формироваться потребительские группы(кластеры). Это всегда связано с оптимизацией какого-либо критерия, такого как минимизация дисперсии внутри кластера (то есть общая дисперсия кластеризации объектов в конкретном кластере) или максимизация расстояния между кластерами[2]. Существует много различных методов кластеризации, но практическое различие заключается в различии двух основных методов: иерархическим и методом  k-средних. Также речь пойдет  о двухэтапной кластеризации, в которой сочетаются принципы иерархического и k-средних методов.

Метод иерархической кластеризации характеризуется древовидной структурой, созданной в ходе анализа. Иерархический метод попадает в категорию, называемую агломеративной кластеризацией. В этой категории кластеры последовательно формируются из объектов. Первоначально этот тип процедуры начинается с каждого объекта, представляющего отдельный кластер. Затем эти кластеры последовательно объединяются в соответствии с их сходством. Во-первых, два наиболее похожих кластера объединяются, чтобы сформировать новый кластер в нижней части иерархии. На следующем шаге еще одна пара кластеров объединяется и связывается с более высоким уровнем иерархии, и так далее[1]. Это позволяет иерархии кластеров устанавливаться снизу вверх.

Иерархию кластера можно также сгенерировать сверху вниз. В этой делительной кластеризации все объекты сначала объединяются в один кластер, который затем постепенно разделяется. Это важное различие между иерархическим методом и методом k-средних.

Важным вопросом является вопрос о том, как определить количество кластеров. К сожалению, иерархический метод дает лишь очень ограниченные указания для принятия этого решения. Единственный значимый индикатор относится к расстояниям, на которых объединены объекты. Подобно графику в факторном анализе, мы можем искать решение, в котором дополнительная комбинация кластеров или объектов будет происходить на значительно большем расстоянии. Это ставит вопрос о том, что такое большое расстояние[4].

Еще одной важным методом кластеризации является метод k-средних. Алгоритм k-средних следует совершенно иной концепции, чем описанные ранее иерархический метод. Этот алгоритм не основан на измерениях расстояния, таких как евклидово расстояние или расстояние между городами, но использует вариацию внутри кластера как меру для образования гомогенных кластеров. В частности, процедура предназначена для разбиения данных таким образом, чтобы сглаживание внутри кластера было сведено к минимуму.

Процесс кластеризации начинается с случайного присвоения объектов заданному числу кластеров. Затем объекты последовательно переназначаются другим кластерам, чтобы минимизировать вариацию внутри кластера, которая в основном (квадрат) расстояния от каждого наблюдения до центра связанного кластера. Если перераспределение объекта в другой кластер уменьшает вариацию внутри кластера, этот объект переназначается этому кластеру.

Метод k-средних  превосходит иерархический метод, так как он меньше подвержен выбросам и наличию нерелевантных переменных кластеризации. Кроме того, k-средних может применяться к очень большим наборам данных, так как процедура требует меньше вычислительных затрат, чем иерархический метод. На самом деле k-средних стоит эффективно использовать для размеров выборки выше 500, особенно если используется много переменных кластеризации. Однако метод должен использоваться только на данных с интервалом или масштабированных по масштабу, так как процедура основана на евклидовых расстояниях. Тем не менее, эта процедура обычно используется и для порядковых данных, хотя могут быть некоторые искажения. Наконец, в кластеризации k-средних мы должны предварительно указать количество кластеров, а это значит, что перед тем, как мы начнем, нам нужно иметь некоторое представление о ожидаемом решении кластера.

Двухэтапный кластерный метод был разработан в 2001 году. Подобно k-среднему, метод также может эффективно справляться с очень большими наборами данных. Название двухэтапной кластеризации уже свидетельствует о том, что алгоритм основан на двухэтапном подходе: на первом этапе алгоритм выполняет процедуру, очень похожую на алгоритм k-средних. Основываясь на этих результатах, процедура проводит модифицированную иерархическую процедуру агломеративной кластеризации, которая последовательно объединяет объекты для образования гомогенных кластеров. Это делается путем создания так называемого кластерного дерева функций, чьи «листья» представляют различные объекты в наборе данных[3].

Метод может обрабатывать категориальные и непрерывные переменные одновременно и дает пользователю гибкость в определении номеров кластеров, а также максимального количества кластеров или позволяет технике автоматически выбирать количество кластеров на основе статистических критериев оценки.

Двухэтапная кластеризация также предлагает общую меру добротности, называемую мерой силы сцепления и разрыва. Она основана на средних расстояниях между объектами и может варьироваться от  - 1 до +1. В частности, показатель силуэта менее 0,20 указывает на плохое качество решения, показатель между 0,20 и 0,50 справедливым решением, тогда как значения более 0,50 указывают на хорошее решение. Кроме того, метод указывает важность каждой переменной для построения конкретного кластера.

Эти желательные характеристики двухэтапной кластеризации делают ее несколько менее популярной альтернативой таким методам как k-средних и  метод иерархической кластеризации.

Литература:

1.           Гитис JI.X. Кластерный анализ: основные идеи и методы. М.: Издательство МГГУ, 2000

2.           Дюран Б., Оделл П. Кластерный анализ. — М.: Статистика, 1977

3.           Классификация и кластер. Под ред. Дж. Вэн Райзина. М.: Мир, 1980

4.           Олдендерфер М.С., Блэшфилд Р.К. Кластерный анализ // Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989