Лабораторная работа 1
Представление исходных данных
Цель работы: обучить студентов способам представления исходных данных, включающих три матрицы: «объект – признак», «признак – признак», «объект – объект». Показать возможности и научить пользоваться методом главных компонентов, который позволяет визуализировать многомерные данные в сокращенном признаковом пространстве.
Пакет: Statistica; версия 6.0
1.Выбрать файл данных из пакета: последовательно нажав File – Open, приходим к папке Examples, в которой из папки Datasets выбираем файл данных, озаглавленный EconomicIndicators (Экономические индикаторы). Здесь можно выбрать любой другой файл или ввести свои данные. В результате этих действий получаем матрицу «объект-признак», состоящую из 40 строк (cases) и 4 столбцов (variables), часть которой приведена в табл.1.
Таблица 1. Матрица «объект-признак»
2. Перейти к матрице «признак – признак», посредством следующих действий: в командной строке окна выбрать опцию Statistics, в которой указать позицию BasicStatistics / Tables (Основные статистики / таблицы). В открывшемся окне отметить CorrelationMatrices (Корреляционные матрицы) и нажать OK. Далее выбрать все переменные из первого списка. В итоге должна получиться матрица корреляций между признаками размерностью 4х4, вид которой показан в табл.2.
Таблица 2. Матрица «признак - признак»
Проанализировать полученные результаты.
3. Перейти к матрице «объект-объект» следующими операциями: в командной строке окна выбрать опцию Statistics , в которой указать позицию MultivariateExploratoryTechniques (Многомерные методы) и далее - ClusterAnalysis - Joining (Кластерный анализ –объединение), после чего нажать ОК. В открывшемся окне кластерного анализа, показанном на рис.1, в опции Сluster (Кластер) выбрать Cases (Строки), поскольку группируются объекты и нажать ОК.
Рис.1. Окно кластерного анализа
В открывшемся окне JoiningResults (Результатов объединения) выбрать DistanceMatrix (Матрицу расстояний), которая и представляет собой матрицу «объект-объект», размерностью 40х40, часть которой приведена в табл.3.
Таблица 3. Матрица «объект-объект»
Пользуясь такой матрицей, можно построить дендрограмму объединения объектов, сходных или различных по четырем признакам. Для этого в окне JoiningResults нажать клавишу Verticalicicleplot (Вертикальная дендрограмма), в результате чего приходим к графику, показанному на рис.2.
Рис.2. Дендрограмма объектов-стран
Полученная дендрограмма указывает порядок и уровень объединения стран, сходных между собой, а также сформировавшиеся кластеры (группы) сходных стран. В данном примере образовано 4 кластера.
Визуализация многомерных данных
Для решения такой задачи используется метод главных компонентов.
1.В командной строке окна выбрать опцию Statistics, в которой указать позицию Multivariate Exploratory Techniques и далее - Principal Components … (Главные компоненты…). В окне главных компонентов, показанном на рис.3, выбрать все переменные для анализа (foranalysis - all), после чего нажать OK.
Рис.3. Окно главных компонентов
2. В открывшемся окне выбрать опцию Variables (Переменные) и просмотреть собственные числа, показанные в табл.4
Таблица 4. Собственные числа
Оценка потерь информации при переходе к только двум главным компонентам в данном примере составляет около 2,5%.
3. Выбрав в предыдущем окне опцию cases (строки) можно построить 2D график, нажав клавишу Plotcasesfactorcoordinates (График строк в факторных координатах). Результат показан на рис.4.
Рис.4. 40 стран в плоскости первых двух главных компонентов
Пакет: Statgraphics, версия 5.1
1. При запуске программы на появляющиеся последовательно два вопроса:
Какую задачу вы хотите выполнить? и Где ваши данные?
дать следующие ответы:
AnalyzeExistingDatesorEnterNewData (Анализ существующих данных или ввод новых данных) и – InanExistingStatgraphicsPlusDataFile (В существующем файле данных).
Затем выбрать для анализа файл Cardata (можно выбрать любой другой файл или ввести свои данные).
Появившаяся таблица представляет собой матрицу «объект-признак» (155 строк x 9 столбцов). Часть этой матрицы показана в табл.5.
Таблица 5. Матрица «объект-признак»
2. Перейти к матрице «признак – признак», выбрав в командной строке Describe (Описать), а затем последовательно NumericData – Multiple – VariableAnalysis (Числовые данные – многомерный анализ). В появившемся окне многомерного анализа в качестве данных необходимо использовать только количественные переменные, например, такие, как указано на рис.5. Для этого их надо поместить в поле Data. Кроме того, для лучшего просмотра результатов желательно сократить количество строк матрицы, ограничившись, например, 20, для чего в поле Select надо набрать такую строку: first(20).
Рис.5. Окно многомерного анализа
Результаты корреляционного анализа, т.е. матрица «признак-признак» показана в табл.6.
Таблица 6. Матрица «признак-признак»
Визуализация многомерных данных
Для решения такой задачи используется метод главных компонентов.
1. В командной строке выбрать Special (Специальные), а затем MultivariateMethods - PrincipalComponents (Многомерные методы – главные компоненты) .
2. В окне диалога входных данных выбрать переменные для анализа, как и в первом случае и ограничиться 20-30 объектами.
3. Выделить табличные опции: AnalysisSummary, ComponentWeights, DataTable (Итоговый анализ, компонентные веса, таблица данных) и проанализировать их. Табл.7 представляет собой итоговый анализ.
Таблица 7. Итоговый анализ
Оценить потерю информации при выборе двух или трех главных компонентов. Для рассматриваемого случая при сохранении, соответственно, двух и трех главных компонентов потеря информации составляет примерно 13% и 3% .
3. Выделить графические опции (2DScatterplot, 3DScatterplot). Для чего вначале при нажатии правой клавиши мыши выделить опцию AnalysisOptions (Анализ опций) и в появившемся окне указать выделение по числу компонентов (ExtractbyNumberofComponents). Полученные графики приведены на рис.6 и 7.
Построить графики и промаркировать объекты.
Рис.6. Объекты в двумерной плоскости
Рис.7. Объекты в трехмерном пространстве
Задание
1. Провести такой анализ для других данных обоих пакетов.
2. Ввести данные по результатам сессии 9 студенческих групп, сдавших по 4 экзамена (табл.8). В табл.8 приведены средние баллы по каждому экзамену ( ОИ - отечественная история; ЭТ – экономическая теория; МА – математический анализ; ЛА – линейная алгебра) для каждой из 9 групп. Представить результаты в виде главных компонентов в двумерной плоскости (группы - на плоскости).
Таблица8. Средние баллы каждой группы по 4 экзаменам
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.