Иерархический кластерный анализ и анализ методом К-средних позволяют осуществлять таксономию объектов в заданном признаковом пространстве. Однако у каждого метода есть свои ограничения и преимущества, основные представлены в таблице.
Иерархический КА |
Метод К-средних |
Тип переменной-признака |
|
Количественные Дихотомические Ранговые Номинальные |
Количественные Дихотомические Ранговые |
Объем выборки |
|
Менее 100 объектов (агрегировать массив, выборка случайным образом) |
Более 100 объектов |
Определение числа кластеров |
|
§ можно (но необязательно) задать вывод диапазона решений, сохранив как новую переменную принадлежность к кластеру (save/range of solution) label: average linage between groups; § на основе анализа шагов объединения и дендрограммы выбрать оптимальное решение; § посмотреть наполненность групп. |
§ необходимо задать число кластеров. Для разных кластерных решений необходимо запускать процедуру несколько раз; § можно сохранить принадлежность к кластеру в качестве новой переменной (save/ cluster membership) – label: average linage between groups; § посмотреть наполненность групп |
Возможность нормирования |
|
Есть (Method/ standardize/ Z-scores или Range -1 to 1 (0 to 1). 0 – минимальное значение, 1 – максимальное значение. |
Необходимо провести стандартизацию до включения признака в модель (например, преобразовать в Z-статистики). |
Меры сходства (расстояний) |
|
Более 40 видов для разных типов переменных |
Евклидово расстояние |
Приписывание объекта к кластеру |
|
Объекты не могут переходить из кластера в кластер. |
Объекты могут переходить из кластера в кластер |
Задания к семинарским занятиям
Задание 1.
Задание 2.
1. Открыть массив gorod.sav, выбрать для проведения анализа любую номинальную или ранговую переменную. С помощью процедуры FREQUENCIES получить частотное распределение выбранного признака, а также возможные статистики средней тенденции. Описать полученные данные: дать содержательный комментарий на основе изучения процентного соотношения, статистик, графиков.
2. Из того же массива выбрать любую интервальную переменную. С помощью процедуры FREQUENCIES получить возможные меры средней тенденции и разброса, а также статистики симметричности распределения. Используя значения стандартных ошибок, рассчитать 95% и 99% доверительный интервал для среднего, коэффициенты скошенности и пикообразности. Проанализировать полученные результаты, описать особенности распределение признака (в частности, относительно нормального). Для наглядности стоит построить гистограмму распределения с наложением кривой нормального распределения (процедура FREQUENCIES).
Внимание! Обратите внимание на «выбросы» и пропущенные значения. Используйте опцию для построения « ящичковых» диаграмм (BOXPLOT/ Summariesofseparatevariables).
Задание 3.
1. Пользуясь командами COMPUTE и IF построить переменную Life– Жизненная позиция» со следующими значениями: 1 – «оптимист по жизни», 2 – «терпеливый», 3 – «пессимист». Постарайтесь получить непустые и интересные типы. Используйте в качестве критериев для типологии несколько признаков.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.