Дискриминантный и кластерный анализ в системе Statistica

Содержание работы

Практика 10.

Дискриминантный и кластерный анализ в системе Statistica.

1. Дискриминантный анализ.

Дискриминантный анализ относится к методам классификации многомерных наблюдений при наличии обучающих выборок (в отличие от кластерного анализа, осуществляющего классификацию автоматически - без обучения). Его цель состоит в идентификации новых объектов и их отнесении к уже имеющимся группам или совокупностям.

Например, при исследовании предприятий в одной из отраслей получен ряд групп, разбитых по степени эффективности производства; задача дискриминантного анализа - классифицировать новые предприятия путем отнесения к одному из уже имеющихся классов.

Считается, что дискриминантный анализ дает наилучшие результаты тогда, когда исходные данные удовлетворяют следующим требованиям, которые, однако, не являются обязательными:

рассматриваемые наблюдения имеют нормальный закон распределения;
однородность дисперсий и ковариаций;
отсутствие в изучаемых группах (или совокупностях) экстремальных наблюдений (выбросов).

Рассмотрим основные этапы проведения дискриминантного анализа на следующем примере.

Пример 1. Ниже приведена таблица с данными условной классификации 12 стран мира по уровню медицинского обеспечения населения. Страны условно разбиты на три группы в соответствии с высоким, удовлетворительным и низким уровнем медицинского обеспечения на основе следующих показателей:

ВВП - ВВП, определенное на основе паритета покупательной способности, в % к США;

РАСХЗДРА - расходы на здравоохранение, в % к ВВП;

ЧИСВРАЧ - число врачей на 10 тыс. человек населения;

СМЕРТНОС - смертность населения по причине болезней органов кровообращения на 100 тыс. человек населения.

В первую группу с высоким уровнем медицинского обеспечения вошли промышленно развитые страны Запада: Австрия, Бельгия, Великобритания, Германия и Австралия. Вторую группу с удовлетворительным уровнем составили: Болгария, Венгрия, Белоруссия. Третья группа образована кавказскими и среднеазиатскими странами бывшего СССР: Армения, Азербайджан, Киргизия, Грузия («низкий» уровень).

Задача состоит в том, чтобы классифицировать страны: Россию, Грецию, Данию и Казахстан.

Шаг 1. Запустим модуль Дискриминантный анализ (Discriminant Analysis) и выберем переменные.

В нашем примере группирующей переменной является УРОМЕДОБ - уровень медицинского обеспечения, а независимыми - ВВП, РАСХЗДРА, ЧИСВРАЧ, СМЕРТНОС.

Шаг 2. Зададим Коды для группирующей переменной и включим (поставим галочку) Пошаговый анализ.

Шаг 3. В этом окне определим параметры модели и нажмем ОК.

В окошке Метод (Method) можно выбрать один из трех методов анализа: стандартный (Standard), пошаговый с включением (Forward stepwise) и пошаговый с исключением (Backward stepwise).

Если выбран Стандартный метод, то все выбранные переменные будут одновременно включены в модель.

В методе Пошаговый с включением на каждом шаге в модель выбирается переменная с наибольшим F-значением, при этом пользователь должен установить его минимальную величину. Процедура заканчивается, когда все переменные, имеющие F-значение больше значения, указанного в поле F to enter, вошли в модель.

Если выбран Пошаговый анализ с исключением, то в уравнение будут включены все выбранные пользователем независимые переменные, которые затем удаляются в зависимости от величины F-значения. Переменная с наименьшим значением исключается из модели первой. Шаги заканчиваются, когда нет переменных, имеющих F-значение меньше определенного пользователем в поле F to remove. Заметим, что значение в поле F to enter всегда должно быть больше, чем значение в поле F to remove.

Поле Число шагов (Number of steps) определяет максимальное число шагов анализа, по достижении которых процедура закончится, даже если еще не все переменные прошли отбор на основе их F-значений.

Поле Толерантность (Tolerance) позволяет исключить из модели неинформативные переменные.

Шаг 4.