Гордеева С.М.
Практикум
По многомерной статистике
Работа № 3
Кластерный анализ
Практическая часть.
Исходные данные: матрица среднегодовых значений осадков в 10-15 точках территории с 1982 по 2008 год.
Порядок работы:
1.1. Выполнить районирование поля осадков по количеству на основе классификации иерархическим методом Уорда с метрикой Евклида. Получить дендрограмму. Выбрать 2-3 варианта разбиения на классы (2, 3 или 4 класса).
(Claster Analysis – Joining – Advanced: Raw data; Variables (Columns); Ward’s method; Euclidean Distances – Plot (любой)).
1.2. Выполнить классификацию методом К-средних для этих 2-3 вариантов разбиения
Выбрать таблицы с информацией о межклассовых и внутриклассовых расстояниях
Рассчитать критерии оптимальности J1 = (срВКрасст/срМКрасст) и J2 = срМКрасст – срВКрасст (срМКрасст – среднее межклассовое расстояние; срВКрасст – среднее внутриклассовое расстояние). Сделать вывод о наилучшем варианте разбиения на классы.
(Claster Analysis – k-means clastering – Advanced: Variables (Columns); Number of clusters (2, 3 или 4). Таблицы: (Advanced: Summary; Members of each cluster & distances).
1.3. Для оптимального разбиения на классы сравнить состав классов по методу Уорда и К-средних. Для каждого класса рассчитать среднее значение характеристики (осадков). Нанести на географическую карту границы районов (классов) и указать при них среднее значение в классе. Провести физический анализ районирования.
2.1. Выполнить районирование поля осадков по межгодовой изменчивости на основе классификации иерархическим методом Уорда с метрикой (1-r). Построить дендрограмму. Выбрать наилучшее разбиение на классы (визуально). Для каждого класса рассчитать средний временной ряд. Построить их графики. Построить карту с районами.
2.2. Сравнить полученное районирование с результатами факторного анализа (см. работу № 2) по карте и по графикам изменчивости.
3.1. Выбрать временной ряд в одной точке поля. Для него провести разбиение лет на градации (норма, выше нормы, значительно выше нормы, ниже нормы, значительно ниже нормы), т.е. на 3-5 классов, на основе классификации иерархическим методом Уорда с метрикой Евклида. Построить дендрограмму.
3.1. Для каждого класса-градации рассчитать среднее значение, минимум и максимум. Построить график временной изменчивости. На него нанести характеристики разных классов. Сделать физический анализ.
Пример.
Исходные данные: матрица осредненных за холодный период (с октября по март) значений осадков в 10 точках водосбора р.Вуокса с 1949 по 1984 год.
1. Районирование поля осадков по количеству.
Варианты разбиения – 2 и 3 класса.
Теоретическая часть.
Кластерный анализ (классификация) применяется, когда необходимо некоторую совокупность данных разделить на группы, обладающие сходными признаками. В качестве этих признаков могут выступать сами количественные характеристики (разбиение по принципу «больше-меньше») или их изменчивость (разбиение по изменчивости).
Существует огромное множество математических алгоритмов классификации.
Работа № 2
Анализ главных компонент и факторный анализ
Практическая часть.
Исходные данные (пример): матрица среднегодовых значений осадков в 10-15 точках территории с 1982 по 2008 год.
Порядок работы:
1.1. Провести разложение исходной матрицы методом главных компонент (Principal Components). Выбрать количество факторов (max. no. of factors) равным числу переменных в исходной матрице, минимальное собственное число (min. eigenvalue) = 0,001.
1.2. Получить 3 отчетных таблицы:
1.2.1 Собственные числа (eigenvalues);
1.2.2. Собственные векторы (нагрузки) (factor loading);
1.2.3. Значения главных компонент (factor scores).
1.3. Проанализировать результаты:
1.3.1. По таблице 1.2.1 оценить сходимость разложения. Определить количество исследуемых далее главных компонент и описываемую ими дисперсию;
1.3.2. По таблице 1.2.2 нарисовать карту распределения нагрузок. Выявить области (группы переменных), определяемые каждой из выбранных в п.1.3.1 главных компонент. Описать эти районы (группы) географически (физически).
1.3.3. По таблице 1.2.3 нарисовать графики временной изменчивости выбранных в п. 1.3.1. главных компонент. Провести качественный анализ изменчивости (тренд, квазигармоники и т.п.). Рассмотреть изменчивость исходных переменных в связи с изменчивостью главных компонент.
2.1. Провести разложение исходной матрицы методом факторного анализа (Principal factor analisis). В качестве общностей (communalities) выбрать множественный коэффициент корреляции (multiple R), количество факторов (max. no. of factors) равным числу переменных в исходной матрице, минимальное собственное число (min. eigenvalue) = 0,001.
2.2. Получить отчетную таблицу распределения собственных чисел (eigenvalues). Оценить сходимость разложения. Определить количество факторов, выбранных для дальнейшего исследования (К штук) и описываемую ими дисперсию.
2.3. Вернуться к п.2.1. Провести такое же разложение, только количество факторов (max. no. of factors) указать равным К (см. п.2.2), минимальное собственное число (min. eigenvalue) = 0,001.
2.4. Выполнить второе вращение факторов (factor rotation) методом Варимакс (Varimax normalized). Получить таблицу собственные векторов (нагрузок факторов) (factor loading). Нарисовать карту распределения нагрузок. Выявить области (группы переменных), определяемые каждым из выбранных факторов. Описать эти районы (группы) географически (физически). Сравнить с анализом ГК.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.