Кластерный анализ.
Кластерный анализ - это метод, позволяющий классифицировать многомерные наблюдения, при котором используется политетический подход образования групп, то есть при отнесении единицы наблюдения в ту или иную группу одновременно участвуют все группировочные признаки. Предпочтение данному методу многомерной кластеризации обусловлено построением научно обоснованных групп (кластеров), выявлением внутренней связи между единицами наблюдений совокупности, а также как методу, не требующему априорной информации о видах законов распределения исследуемых рядов, без обучающей выборки. Наиболее распространенном алгоритмом кластерного анализа является иерархические процедуры, которые бывают двух типов:
1. амолиративные (скопление): принцип работы состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга;
2. дивизимные (деление): принцип работы состоит в последовательном объединении групп элементов сначала самых далеких, а затем все более близких друг от друга.
Алгоритмы кластерного анализа разрабатывается с учетом двух основополагающих моментов:
§ во-первых, возможности представить любую совокупность объектов наблюдения в признаковом геометрическом пространстве, как плотные скопления точек, представляющих однородность, или наоборот «не похожесть» анализируемых объектов;
Х2
Х1
Рис.1 Распределение n-объектов наблюдения в двухмерном пространстве.
§ во-вторых, представления, что в геометрическом пространстве два различных объекта находятся на некотором удалении друг от друга и, расстояние между ними тем больше, чем более они не похожи, и тем меньше, чем больше их сходство.
Х2
х22 n2
d1,2=
х12 n1
0 х11 х21 Х1
Рис.2 Расстояние (d1,2) между объектами наблюдения (n1 и n2) в двумерном признаковом пространстве.
Кластерный анализ независимо от выбора конкретного алгоритма осуществляется при последовательном выполнении следующих шагов:
§ формирование матрицы исходных данных Х, размером n*m, где n-число объектов наблюдения, m-число признаков, по которым производится группировка;
§ переход от матрицы исходных данных к матрице нормированных данных (приведение разнородных по своей физической природе признаков к одному основанию);
§ определение расстояний между всеми парами объектов и построение исходной матрицы расстояний;
§ производится выбор конкретной процедуры кластерного анализа и по данным матрицы расстояний последовательно выделяются группы однородных объектов;
§ при помощи специальных показателей оцениваются результаты кластерного анализа, в случае необходимости, производится перегруппировка данных;
§ на последнем шаге результаты кластерного анализа обобщаются при помощи графиков и таблиц и получают свою экономическую интерпретацию.
Пример: Известны данные о потреблении на душу населения основных продуктов питания (кг) в пяти странах: России, США, Великобритании, Франции, Японии.
Продукты питания |
Потребление продуктов питания |
||||
Россия |
США |
Великобритания |
Франция |
Япония |
|
Мясо и мясопродукты Молоко и молочные пр-ты Яйца Хлебопродукты |
59 363 268 129 |
113 263 229 100 |
70 313 193 90 |
94 412 257 84 |
37 81 298 119 |
Необходимо выделить однородные по уровню потребления продуктов питания группы стран и найти место России по уровню потребления.
Отметим, что пять объектов наблюдения (страны) анализируются по четырем признакам (видам продуктов потребления), исходная матрица данных:
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.