Дискриминантный и кластерный анализ в системе Statistica, страница 4

  • Joining (tree clustering) – соединения (древовидная кластеризация);
  • K-means clustering – метод К-средних;
  • Two-way joining – двухвходовое объединение.

2.1. Первый метод Joining (tree clustering) представляет группу иерархических алгоритмов кластеризации. В основе таких алгоритмов лежит идея последовательной кластеризации.

Пусть исходное множество состоит из n объектов. В качестве расстояния между двумя объектами выбирается некоторая метрика ρ. Выбор метрики необходимо сделать в опции distance measure панели Joining:

·  1 – коэффициент корреляции Пирсона;

·  квадратичная Евклидова метрика;

·  Евклидова метрика;

·  расстояние городских кварталов

(манхэттоновское расстояние);

·  расстояние Чебышева;

·  степенное расстояние (Power);

·  процент несогласия

(Хеммингово расстояние).


На начальном шаге каждый объект рассматривается как отдельный кластер. На следующем шаге некоторые из ближайших друг к другу кластеров будут объединяться в один новый кластер. В зависимости от выбора меры, по которой определяется расстояние между кластерами, реализуются следующие методы объединения объектов в кластеры (выбор осуществляется в зависимости от меры расстояния между кластерами в опции: Amalgamation (linkage) rile):

Метод одиночной связи (Single Linkage). Кластеры объединяются исходя из расстояния, измеряемого по методу «ближайшего соседа». Группы, между которыми расстояния самые маленькие, объединяются. Каждое объединение уменьшает число групп на единицу. Расстояние между группами определяется как расстояние между ближайшими членами групп. Метод приводит к «цепным» кластерам.

Метод полной связи (Complete Linkage). Расстояние между группами определяется как расстояние, измеряемое по принципу «дальнего соседа». Расстояние между объединяемыми кластерами равно диаметру наименьшей сферы, содержащей оба кластера. Метод создает компактные кластеры в виде гиперсфер, которые плохо объединяются с другими кластерами. Если кластеры имеют удлиненную форму, то метод не работает.

Метод невзвешенного попарного среднего (Unweighted pair-group average). Расстояние между кластерами определяется по принципу «средней связи».

Метод взвешенного попарного среднего (Weighted pair-group average). Расстояние между кластерами определяется по принципу «средней связи», но с учетом в качестве весов числа объектов, содержащихся в кластерах.

Невзвешенный центроидный метод (Unweighted pair-group centroid). Расстояние между кластерами определяется как расстояние между их «центрами тяжести».

Взвешенный центроидный метод (Weighted pair-group centroid). Расстояние между классами определяется как расстояние между их «центрами тяжести», но с учетом весов, определяемых по количеству объектов в каждом кластере (т.е. с учетом размеров кластеров).

Метод Уорда (Ward’s method). В этом методе в качестве целевой функции используется сумма квадратов расстояний между каждым элементом и «центром тяжести» класса, содержащего этот элемент. Кластеризация представляет последовательную процедуру, на каждом шаге которой объединяются два таких класса.

Рассмотрим работу иерархического алгоритма кластеризации на простом примере.

Пример 2. Провести кластеризацию четырех объектов методами одиночной связи и полной связи. Каждый объект определяется двумя признаками:

Если данные не стандартизированы, то процедуру стандартизации данных можно выполнить в таблице, используя следующую последовательность действий: курсор на имени переменной / нажать правую кнопку мыши / в выпадающем меню выбрать File/Standardize Block / Standardize Columns.


Для реализации любого метода кластеризации из группы иерархических процедур Joining (tree clustering) необходимо сделать следующие установки: