Представление исходных данных, включающих три матрицы: «объект – признак», «признак – признак», «объект – объект» (Лабораторная работа № 1)

Страницы работы

Содержание работы

Лабораторная  работа 1

Представление  исходных  данных

         Цель  работы:  обучить  студентов  способам  представления  исходных  данных,  включающих  три  матрицы:  «объект – признак»,  «признак – признак»,  «объект – объект».  Показать  возможности  и  научить  пользоваться  методом  главных  компонентов,  который  позволяет  визуализировать  многомерные  данные  в  сокращенном  признаковом  пространстве.

Пакет: Statistica; версия  6.0

1.Выбрать файл данных  из  пакета: последовательно  нажав FileOpen,  приходим  к  папке   Examples,  в  которой  из  папки  Datasets   выбираем  файл  данных,  озаглавленный EconomicIndicators (Экономические  индикаторы). Здесь  можно выбрать любой другой файл  или  ввести свои  данные. В результате  этих  действий  получаем  матрицу  «объект-признак»,  состоящую  из 40 строк (cases)   и 4 столбцов (variables), часть  которой  приведена  в  табл.1.

Таблица 1. Матрица  «объект-признак»

2.  Перейти  к  матрице  «признак – признак»,  посредством  следующих  действий: в командной  строке  окна  выбрать  опцию  Statistics,  в  которой  указать  позицию BasicStatistics / Tables  (Основные  статистики / таблицы). В  открывшемся  окне отметить   CorrelationMatrices  (Корреляционные  матрицы) и  нажать  OK.  Далее  выбрать все  переменные   из  первого списка.  В  итоге  должна  получиться  матрица  корреляций между  признаками размерностью 4х4,  вид  которой  показан  в  табл.2.

Таблица 2. Матрица  «признак - признак»

Проанализировать  полученные  результаты.

3. Перейти  к  матрице  «объект-объект» следующими операциями: в командной  строке  окна  выбрать  опцию  Statistics ,  в  которой  указать  позицию  MultivariateExploratoryTechniques  (Многомерные  методы)  и  далее -    ClusterAnalysisJoining  (Кластерный  анализ –объединение),  после  чего  нажать  ОК. В  открывшемся  окне   кластерного  анализа,  показанном  на  рис.1, в  опции  Сluster (Кластер)    выбрать  Cases  (Строки),  поскольку группируются  объекты  и  нажать  ОК.

Рис.1. Окно  кластерного  анализа

 В  открывшемся  окне   JoiningResults  (Результатов объединения)  выбрать  DistanceMatrix  (Матрицу  расстояний),  которая  и  представляет   собой  матрицу  «объект-объект»,  размерностью  40х40,  часть   которой    приведена  в  табл.3.

Таблица  3. Матрица  «объект-объект» 

Пользуясь  такой  матрицей,  можно  построить  дендрограмму  объединения  объектов,  сходных  или  различных  по  четырем  признакам.  Для  этого  в  окне  JoiningResults  нажать  клавишу Verticalicicleplot (Вертикальная  дендрограмма), в результате чего  приходим  к  графику,  показанному  на рис.2.

Рис.2.  Дендрограмма  объектов-стран

Полученная  дендрограмма указывает  порядок  и  уровень  объединения  стран,  сходных  между  собой,  а  также  сформировавшиеся  кластеры  (группы)  сходных  стран.  В  данном  примере  образовано  4  кластера.

Визуализация  многомерных  данных

Для  решения  такой  задачи  используется    метод  главных компонентов.

1.В командной  строке  окна  выбрать  опцию  Statistics,  в  которой  указать  позицию  Multivariate Exploratory  Techniques  и  далее -    Principal Components(Главные  компоненты…).  В  окне  главных  компонентов,  показанном  на  рис.3, выбрать  все  переменные  для  анализа  (foranalysis  - all),  после чего  нажать  OK.

Рис.3. Окно  главных  компонентов

2. В  открывшемся  окне  выбрать  опцию  Variables  (Переменные)  и просмотреть    собственные  числа,  показанные  в  табл.4

Таблица 4. Собственные  числа

Оценка потерь  информации при  переходе  к  только  двум  главным  компонентам  в  данном  примере  составляет  около 2,5%.

3.  Выбрав  в  предыдущем  окне  опцию  cases (строки)  можно  построить 2D график,  нажав клавишу Plotcasesfactorcoordinates  (График  строк  в  факторных  координатах).   Результат  показан  на  рис.4.

Рис.4. 40 стран  в  плоскости  первых  двух  главных  компонентов

Пакет: Statgraphics,  версия 5.1

1. При  запуске  программы  на  появляющиеся  последовательно  два  вопроса:

 Какую  задачу  вы  хотите  выполнить?  и  Где  ваши  данные? 

дать  следующие  ответы:

 AnalyzeExistingDatesorEnterNewData  (Анализ  существующих данных  или  ввод  новых  данных)  и   – InanExistingStatgraphicsPlusDataFile  (В существующем  файле  данных).

Затем  выбрать  для  анализа файл   Cardata  (можно выбрать любой другой файл  или  ввести свои  данные).

         Появившаяся  таблица  представляет  собой  матрицу  «объект-признак»  (155 строк  x 9 столбцов).  Часть  этой  матрицы  показана  в  табл.5.

Таблица 5. Матрица  «объект-признак»

2.  Перейти  к  матрице  «признак – признак», выбрав  в  командной  строке   Describe  (Описать),  а  затем  последовательно  NumericDataMultipleVariableAnalysis  (Числовые  данные – многомерный  анализ). В  появившемся  окне  многомерного  анализа  в качестве  данных  необходимо использовать только  количественные  переменные,  например,  такие,  как  указано  на  рис.5.  Для  этого  их  надо  поместить  в  поле  Data.  Кроме  того,  для  лучшего  просмотра  результатов  желательно сократить  количество  строк  матрицы,  ограничившись,  например,  20,  для  чего  в поле  Select надо  набрать  такую  строку:  first(20).

Рис.5. Окно  многомерного  анализа

Результаты  корреляционного  анализа,  т.е.  матрица  «признак-признак»  показана  в  табл.6.

Таблица 6. Матрица  «признак-признак»

Визуализация  многомерных  данных

Для  решения  такой  задачи  используется    метод  главных компонентов.

1. В  командной  строке  выбрать  Special  (Специальные),  а  затем    MultivariateMethods -   PrincipalComponents  (Многомерные  методы – главные  компоненты) .

2. В окне диалога  входных  данных   выбрать переменные  для  анализа,  как  и  в  первом случае  и ограничиться  20-30 объектами.

3. Выделить  табличные  опции:  AnalysisSummaryComponentWeights, DataTable  (Итоговый  анализ, компонентные  веса, таблица  данных)   и  проанализировать  их. Табл.7  представляет  собой    итоговый  анализ. 

Таблица 7. Итоговый  анализ

 Оценить  потерю  информации  при  выборе  двух  или  трех  главных  компонентов. Для  рассматриваемого  случая  при  сохранении,  соответственно,  двух  и  трех  главных  компонентов  потеря  информации  составляет  примерно  13%  и  3% . 

3.  Выделить  графические  опции  (2DScatterplot,  3DScatterplot). Для  чего  вначале  при  нажатии правой  клавиши  мыши  выделить  опцию  AnalysisOptions  (Анализ опций)  и в появившемся  окне  указать  выделение  по  числу  компонентов  (ExtractbyNumberofComponents).  Полученные  графики  приведены  на рис.6  и  7. 

   Построить  графики  и  промаркировать  объекты. 

Рис.6. Объекты  в  двумерной  плоскости

Рис.7.  Объекты  в  трехмерном  пространстве

Задание

1. Провести  такой  анализ  для  других  данных обоих   пакетов.

2.  Ввести  данные  по  результатам сессии  9 студенческих групп,  сдавших  по 4 экзамена  (табл.8). В  табл.8  приведены  средние  баллы  по  каждому  экзамену ( ОИ - отечественная  история; ЭТ – экономическая  теория;  МА – математический  анализ;  ЛА – линейная  алгебра)  для  каждой  из  9  групп. Представить  результаты  в  виде  главных  компонентов  в  двумерной  плоскости  (группы  -  на  плоскости).

Таблица8. Средние  баллы  каждой  группы  по  4  экзаменам

Похожие материалы

Информация о работе