Алгоритм
1.1 Назначение алгоритма
Алгоритм предназначен для вычисления и анализа тесноты и характера парных корреляционно-регрессионных связей между факторами исходной информации, выбора значимых и удаление малозначимых мулътиколлинеарных факторов - аргументов. Рассчитываются показатели тесноты связи, критерии значимости связей и кривизны зависимостей.
1.2 Содержательная постановка и расчетная схема
Имеется выборка N объектов (наблюдений, реализаций). Каждый из них количественно описан системой входных (аргументы, факторы) выходных (результирующие показатели) признаков, составляющих массив исходной информации . Предполагается, что информация предварительно проанализирована и, при необходимости, удалены нетипичные объекты, проверены и откорректированы аномальные наблюдения.
Требуется:
а) дать обобщенный анализ тесноты и характера парных связей между всеми признаками;
б) выявить факторы, не представляющие интереса для последующих этапов моделирования и изучения соответствующих процессов, явлений.
Поставленная задача реализуется в алгоритме по определенной схеме и представляется в виде выдаваемых на печать параметров, критериев и статистических оценок.
1. Рассчитываются показатели тесноты парной линейной и нелинейной связи между всеми признаками выборки.
2. Оценивается значимость корреляционных связей, для чего вычисляются значения критериев (Стьюдента) коэффициентов корреляции .
3. Оценивается характер парных зависимостей, для чего вычисляются F -критерии (Фишера) кривизны.
Анализируются и выделяются пары слабо связанных признаков, значения и для которых не превышают назначенные пороговые величины и .
5. На основе анализа корреляционных связей одним из двух способов (алгоритмов) устанавливаются мультиколлинеарные факторы, а из них те факторы, которые подлежат удалению.
1.3 Математическая постановка и описание алгоритма
Дано:
- матрица факторов;
где - число факторов;
- число наблюдений (объектов).
Требуется:
I. Вычислить парные корреляционные связи между факторами - коэффициенты корреляции линейных парных зависимостей и коэффициенты корреляционных отношений,
где j - номер фактора-функции ;
k - номер фактора-аргумента , номер фактора-аргумента всегда больше номера фактора-функции .
2. Вычислить критерии значимости и критерии кривизны нелинейных зависимостей всех пар рассматриваемых X.
3. Исключить малозначимые X. Исключаются те аргументы для которых имеет место одно из двух неравенств:
, (1)
, (2)
где и - минимальный и максимальный уровни тесноты парной связи между и , задаваемые по желанию исследователя.
Исключить мультиколлинеарные X. Исключается часть аргументов из группы тех, для каждого из которых имеет место хотя бы одно неравенство.
(3)
где - максимальный уровень тесноты парной связи между аргументами, задаваемый исследователем. Значения , и рассчитываются по известным формулам математической статистики.
При расчетах используются:
средние арифметические каждого фактора
= , (4)
где - фактическое значение фактора;
- номер наблюдения в выборке;
- число наблюдений.
Средние квадратические отклонения каждого фактора
; (5)
коэффициенты корреляции для каждой пары факторов рассчитываются по формуле
. (6)
Значимость коэффициентов корреляции оценивается по Т-критерию
, (7)
где - среднее квадратическое отклонение коэффициента корреляции.
Критерий Т имеет распределения Стьюдента с числом степеней свободы . Корреляционная связь признается значимой, если расчетное значение критерия больше табличного, взятого с заданным доверительным уровнем.
Корреляционное отношение рассчитывается для криволинейной зависимости типа "квадратная парабола" по формуле:
, (8)
где - остаточная дисперсия фактора-функции,
S - полная дисперсия фактора-функции.
, (9)
где фактическое значение -го фактора-функции;
значение -го фактора-функции, определенное по формуле регрессии.
Значимость криволинейной зависимости определяется по формуле
, (10)
где и - сумма квадратов разностей значений, рассчитанных по линейной и криволинейной зависимостям.
Критерий имеет распределение Фишера со степенями свободы и . При совпадении линейной и криволинейной моделей расчетный критерий меньше табличного, взятого с доверительным уровнем.
Блок "удаление" в программе "Матрица парных связей" для каждой заданной признак-функции () выявляет, анализирует и исключает из дальнейшего рассмотрения малозначимые и мультиколлинеарные факторы-аргументы ().
По желанию исследователя это осуществляется в программе одним из двух способов.
I. Среди групп неудаленных аргументов находится пара и . наиболее тесно связанных:
,. (11)
Из двух факторов и исключается наименее связанный с , то есть на котором достигается
, . (12)
2. Определим величину как число аргументов из , для которых имеет место неравенство (3). Тогда из двух аргументов и , найденных по формуле (11) исключается тот, на котором достигается
, . (13)
В случае равенства исключается из двух аргументов тот, на котором достигается (12).
Процесс нахождения пар аргументов и и исключения одного из них одним из двух способов продолжается до тех пор, пока имеются пары аргументов и , для которых имеет место неравенство (3).
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.