Анализ социологических данных с применением пакета SPSS. Пошаговая исследовательская модель анализа данных, страница 23

Сводная таблица различий методов кластерного анализа

Иерархический кластерный анализ и анализ методом К-средних позволяют осуществлять таксономию объектов в заданном признаковом пространстве. Однако у каждого метода есть свои ограничения и преимущества, основные представлены в таблице.

Иерархический КА

Метод К-средних

Тип переменной-признака

Количественные

Дихотомические

Ранговые

Номинальные

Количественные

Дихотомические

Ранговые

Объем выборки

Менее 100 объектов (агрегировать массив, выборка случайным образом)

Более 100 объектов

Определение числа кластеров

§  можно (но необязательно) задать вывод диапазона решений, сохранив как новую переменную принадлежность к кластеру (save/range of solution) label: average linage between groups;

§  на основе анализа шагов объединения и дендрограммы выбрать оптимальное решение;

§  посмотреть наполненность групп.

§ необходимо задать число кластеров. Для разных кластерных решений необходимо запускать процедуру несколько раз;

§ можно сохранить принадлежность к кластеру в качестве новой переменной (save/ cluster membership) – label: average linage between groups;

§ посмотреть наполненность групп

Возможность нормирования

Есть (Method/ standardize/ Z-scores или Range -1 to 1 (0 to 1). 0 – минимальное значение, 1 – максимальное значение.

Необходимо провести стандартизацию до включения признака в модель (например, преобразовать в Z-статистики).

Меры сходства (расстояний)

Более 40 видов для разных типов переменных

Евклидово расстояние

Приписывание объекта к кластеру

Объекты не могут переходить из кластера в кластер.

Объекты могут переходить из кластера в кластер

Задания к семинарским занятиям

Задание 1.

  1. Создать массив данных, осуществив построение макета и ввод данных (10 объектов – 5 признаков)
  2. В описании признаков обозначить: тип переменной, название переменной, альтернативы

Задание 2.

1.  Открыть массив gorod.sav, выбрать для проведения анализа любую номинальную или ранговую переменную. С помощью процедуры FREQUENCIES получить частотное распределение выбранного признака, а также возможные статистики средней тенденции. Описать полученные данные: дать содержательный комментарий на основе изучения процентного соотношения, статистик, графиков.

2.  Из того же массива выбрать любую интервальную переменную. С помощью процедуры FREQUENCIES получить возможные меры средней тенденции и разброса, а также статистики симметричности распределения. Используя значения стандартных ошибок, рассчитать 95% и 99% доверительный интервал для среднего, коэффициенты скошенности и пикообразности. Проанализировать полученные результаты, описать особенности распределение признака (в частности, относительно нормального). Для наглядности стоит построить гистограмму распределения с наложением кривой нормального распределения (процедура FREQUENCIES).

Внимание! Обратите внимание на «выбросы» и пропущенные значения. Используйте опцию для построения « ящичковых» диаграмм (BOXPLOT/ Summariesofseparatevariables). 

Задание 3.

1.  Пользуясь командами COMPUTE и IF построить переменную Life– Жизненная позиция» со следующими значениями: 1 – «оптимист по жизни»,   2 – «терпеливый»,  3 – «пессимист». Постарайтесь получить непустые и интересные типы. Используйте в качестве критериев для типологии несколько признаков.