В первый кластер попали объекты: {1,2,3,5,6} со следующими расстояниями до центра кластера:
Во второй – {7,8,9,10} соответственно:
В третий кластер попал один объект {4}:
2.3. Двухвходовое объединение (Two-way joining). Кластеризация проводится одновременно как по переменным (столбцам), так и по результатам наблюдений (строкам). Процедура двухвходового объединения используется в тех случаях, когда можно ожидать, что одновременная кластеризация по переменным и наблюдениям дает возможность получить осмысленные кластеры.
Окно с результатами имеет вид:
вычисленный по данным порог
число блоков
общее среднее и стандартное отклонение
двумерная цветная диаграмма
описательные статистики для наблюдений
описательные статистики для переменных
переупорядоченная матрица данных
Опция Переупорядоченная матрица данных формирует таблицу с наблюдениями, переупорядоченными в соответствии с результатами двухвходового объединения. Напомним, что целью рассматриваемой процедуры является одновременная кластеризация наблюдений и переменных, то есть перемещение схожих данных как можно ближе друг к другу, путем переупорядочения столбцов и строк матрицы.
Задания для самостоятельной работы.
Задача №3. Классифицировать автомобили разных марок (файл cars.sta). Задача - разбить автомобили на несколько кластеров, в которых автомобили мало отличаются друг от друга (количество групп-кластеров подобрать экспериментальным путем). Данные уже стандартизированы.
Используйте процедуры Joining (три любых) и метод К-средних.
Задача №4. На предприятии существует 16 научно-производственных отделов, занятых выпуском различной продукции, работ, услуг. Поскольку виды деятельности, количество работающих, рентабельность отделов различаются между собой, было решено сгруппировать отделы в несколько однородных групп, а затем для каждой группы разработать свою систему премирования.
После тщательного анализ выбрали четыре признака, с помощью которых писывались важные (для указанной цели) параметры каждого отдела:
Х1 – стоимость активной части основных производственных фондов, тыс. руб;
Х2 – среднемесячный объем работ отдела, тыс. руб;
Х3 – удельный вес работ/услуг отдела по внутрифирменной кооперации, %;
Х4 – среднемесячная прибыль отдела, тыс. руб.
Исходные данные по отделам приведены ниже.
Проведите кластеризацию отделов, используя несколько иерархических алгоритмов Joining (tree clustering):
а) используя исходные данные;
б) используя стандартизованные данные;
Сравните результаты кластеризации. По результатам кластеризации определите число кластеров и их состав. Найдите статистические характеристики каждого кластера.
Проведите кластеризацию методом К-средних (число кластеров задайте равным 4). Сравните результаты. Сделайте выводы.
Задача №5. На основе следующих данных, характеризующих демографическую ситуацию в странах Содружества, проведите их классификацию различными методами. Для полученных кластеров определите их состав и статистические характеристики.
Сделайте выводы по демографической ситуации в странах.
Естественный прирост населения в 1999 году.
Страна |
Коэффициент естественного прироста (на 1000 чел. населения), % |
Коэффициент рождаемости (на 1000 чел. населения), % |
Коэффициент смертности (на 1000 чел. населения), % |
Азербайджан Армения Беларусь Грузия Казахстан Кыргызстан Молдова Россия Таджикистан Туркменистан Узбекистан Украина |
9,0 3,3 -4,9 0,1 4,3 14,6 -0,7 -6,4 14,4 13,1 17,0 -7,0 |
14,9 9,6 9,3 8,9 14,0 21,4 10,6 8,3 18,6 18,5 22,3 7,8 |
5,9 6,3 14,2 8,8 9,7 6,8 11,3 14,7 4,2 5,4 5,3 14,8 |
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.