Кластерный анализ. Распределение n-объектов наблюдения в двухмерном пространстве

Страницы работы

Содержание работы

Кластерный анализ.

Кластерный анализ - это метод, позволяющий классифицировать многомерные наблюдения, при котором используется политетический подход образования групп, то есть при отнесении единицы наблюдения в ту или иную группу одновременно участвуют все группировочные признаки. Предпочтение данному методу многомерной кластеризации обусловлено построением научно обоснованных групп (кластеров), выявлением внутренней связи между единицами наблюдений совокупности, а также как методу, не требующему априорной информации о видах законов распределения исследуемых рядов, без обучающей выборки. Наиболее распространенном алгоритмом кластерного анализа является иерархические процедуры, которые бывают двух типов:

1.  амолиративные (скопление): принцип работы состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга;

2.  дивизимные (деление): принцип работы состоит в последовательном объединении групп элементов сначала самых далеких, а затем все более близких друг от друга.

Алгоритмы кластерного анализа разрабатывается с учетом двух основополагающих моментов:

§  во-первых, возможности представить любую совокупность объектов наблюдения в признаковом геометрическом пространстве, как плотные скопления точек, представляющих однородность, или наоборот «не похожесть» анализируемых объектов;

Х2

Х1

Рис.1 Распределение n-объектов наблюдения в двухмерном пространстве.

§  во-вторых, представления, что в геометрическом пространстве два различных объекта находятся на некотором удалении друг от друга и, расстояние между ними тем больше, чем более они не похожи, и тем меньше, чем больше их сходство.

                              Х2

х22                                      n2

d1,2=

х12                         n1

0                      х11    х21                               Х1

Рис.2 Расстояние (d1,2) между объектами наблюдения (n1 и n2) в двумерном признаковом пространстве.

Кластерный анализ независимо от выбора конкретного алгоритма осуществляется при последовательном выполнении следующих шагов:

§  формирование матрицы исходных данных Х, размером n*m, где n-число объектов наблюдения, m-число признаков, по которым производится группировка;

§  переход от матрицы исходных данных к матрице нормированных данных (приведение разнородных по своей физической природе признаков к одному основанию);

§  определение расстояний между всеми парами объектов и построение исходной матрицы расстояний;

§  производится выбор конкретной процедуры кластерного анализа и по данным матрицы расстояний последовательно выделяются группы однородных объектов;

§  при помощи специальных показателей оцениваются результаты кластерного анализа, в случае необходимости, производится перегруппировка данных;

§  на последнем шаге результаты кластерного анализа обобщаются при помощи графиков и таблиц и получают свою экономическую интерпретацию.


Пример: Известны данные о потреблении на душу населения основных продуктов питания (кг) в пяти странах: России, США, Великобритании, Франции, Японии.

Продукты питания

Потребление продуктов питания

Россия

США

Великобритания

Франция

Япония

Мясо и мясопродукты

Молоко и молочные пр-ты

Яйца

Хлебопродукты

59

363

268

129

113

263

229

100

70

313

193

90

94

412

257

84

37

81

298

119

Необходимо выделить однородные по уровню потребления продуктов питания группы стран и найти место России по уровню потребления.

Отметим, что пять объектов наблюдения (страны) анализируются по четырем признакам (видам продуктов потребления), исходная матрица данных:

Похожие материалы

Информация о работе