Дискриминантный и кластерный анализ в системе Statistica, страница 6

В первый кластер попали объекты: {1,2,3,5,6} со следующими расстояниями до центра кластера:

Во второй – {7,8,9,10} соответственно:

В третий кластер попал один объект {4}:


2.3. Двухвходовое объединение (Two-way joining). Кластеризация проводится одновременно как по переменным (столбцам), так и по результатам наблюдений (строкам). Процедура двухвходового объединения используется в тех случаях, когда можно ожидать, что одновременная кластеризация по переменным и наблюдениям дает возможность получить осмысленные кластеры.

Окно с результатами имеет вид:

вычисленный по данным порог

число блоков

общее среднее и стандартное отклонение

двумерная цветная диаграмма

описательные статистики для наблюдений

описательные статистики для переменных

переупорядоченная матрица данных

Опция Переупорядоченная матрица данных формирует таблицу с наблюдениями, переупорядоченными в соответствии с результатами двухвходового объединения. Напомним, что целью рассматриваемой процедуры является одновременная кластеризация наблюдений и переменных, то есть перемещение схожих данных как можно ближе друг к другу, путем переупорядочения столбцов и строк матрицы.


Задания для самостоятельной работы.

Задача №3. Классифицировать автомобили разных марок (файл cars.sta). Задача - разбить автомобили на несколько кластеров, в которых автомобили мало отличаются друг от друга (количество групп-кластеров подобрать экспериментальным путем). Данные уже стандартизированы.

Используйте процедуры Joining (три любых) и метод К-средних.

Задача №4. На предприятии существует 16 научно-производственных отделов, занятых выпуском различной продукции, работ, услуг. Поскольку виды деятельности, количество работающих, рентабельность отделов различаются между собой, было решено сгруппировать отделы в несколько однородных групп, а затем для каждой группы разработать свою систему премирования.

После тщательного анализ выбрали четыре признака, с помощью которых писывались важные (для указанной цели) параметры каждого отдела:

Х1 – стоимость активной части основных производственных фондов, тыс. руб;

Х2 – среднемесячный объем работ отдела, тыс. руб;

Х3 – удельный вес работ/услуг отдела по внутрифирменной кооперации, %;

Х4 – среднемесячная прибыль отдела, тыс. руб.

Исходные данные по отделам приведены ниже.

Проведите кластеризацию отделов, используя несколько иерархических алгоритмов Joining (tree clustering):

а) используя исходные данные;

б) используя стандартизованные данные;

Сравните результаты кластеризации. По результатам кластеризации определите число кластеров и их состав. Найдите статистические характеристики каждого кластера.

Проведите кластеризацию методом К-средних (число кластеров задайте  равным 4). Сравните результаты. Сделайте выводы.


Задача №5. На основе следующих данных, характеризующих демографическую ситуацию в странах Содружества, проведите их классификацию различными методами. Для полученных кластеров определите их состав и статистические характеристики.

Сделайте выводы по демографической ситуации в странах.

Естественный прирост населения в 1999 году.

Страна

Коэффициент

естественного прироста

(на 1000 чел. населения), %

Коэффициент

рождаемости

(на 1000 чел. населения), %

Коэффициент

смертности

(на 1000 чел. населения), %

Азербайджан

Армения

Беларусь

Грузия

Казахстан

Кыргызстан

Молдова

Россия

Таджикистан

Туркменистан

Узбекистан

Украина

9,0

3,3

-4,9

0,1

4,3

14,6

-0,7

-6,4

14,4

13,1

17,0

-7,0

14,9

9,6

9,3

8,9

14,0

21,4

10,6

8,3

18,6

18,5

22,3

7,8

5,9

6,3

14,2

8,8

9,7

6,8

11,3

14,7

4,2

5,4

5,3

14,8