а) Уравнение линейной регрессии с угловым коэффициентом
Уравнение линейной регрессии У на Х имеет вид:
, (3)
где k – коэффициент регрессии, b – свободный член уравнения регрессии. Параметры уравнения регрессии определяются по фактическим данным, которые представляют собой набор n пар
(хi ;yi), при помощи метода наименьших квадратов (МНК).
Расчетные формулы имеют вид:
,
. (4)
Если учесть формулы средних и дисперсии признаков Х и У, то расчет можно вести по следующим формулам:
, (5)
где
Замечание 1. Для проверки правильности расчетов можно использовать тождество:
Замечание 2. В формулах (5) можно использовать выборочные средние и дисперсии, найденные ранее на этапе одномерного анализа признаков, хотя с учетом группировки может получиться менее точный результат (хотя и более быстрый).
Расчет сумм, представленных в формулах, удобно производить при помощи табличного процессора Excel, который является электронной версией таблиц. Для расчета в Excel необходимо организовать расчетную таблицу. Ее вид в компьютере будет следующий (для примера взята выборка объемом n = 5):
б) Выборочное линейное уравнение регрессии
Выборочное линейное уравнение регрессии У на Х имеет вид:
(6)
Выборочное линейное уравнение регрессии Х на У имеет вид:
(7)
В этих уравнениях используются следующие формулы:
дисперсия признака Х;
дисперсия признака У;
rв – выборочный коэффициент корреляции, вычисляемый по формуле:
. (6)
Если параметры уравнения были рассчитаны по уравнению регрессии с угловым коэффициентом, то выборочный коэффициент корреляции вычисляется по формуле: (7)
Пусть признаки Х и У распределены нормально. Из генеральной совокупности извлечена выборка объема n и по ней найден выборочный коэффициент корреляции rв . Требуется проверить гипотезу о значимости генерального коэффициента корреляции rг .
Выдвигаются гипотезы
Основная гипотеза Н0 : rг = 0
Конкурирующая гипотеза Н1 : rг ≠ 0
Для проверки гипотезы H 0 вычисляется наблюдаемое значение критерия:
.
Этот критерий является случайной величиной, которая подчиняется закону распределения Стьюдента с k = n – 2 степенями свободы. Критическая область является двусторонней. По таблице критических точек распределения Стьюдента (Приложение 6) определяется критическое значение критерия при выбранном уровне значимости ошибки a и числе степеней свободы k :
tкр = tкр (α; k).
Если Тнабл > tкр , то нулевая гипотеза отвергается. Это значит, что коэффициент корреляции значимо отличается от нуля и признаки Х и У коррелированы.
Если Тнабл < tкр , то нулевая гипотеза не отвергается. Это значит, что коэффициент корреляции незначимо отличается от нуля и признаки Х и У некоррелированы.
Теоретический коэффициент детерминации и теоретическое корреляционное отношение определяются по уравнению регрессии :
, где Dобїясн уравн регр – дисперсия результативного признака У, объясненная уравнением регрессии; Dобщ – общая дисперсия результативного признака У .
(8)
n – объем выборки;
yi – индивидуальные значения результативного признака У;
– среднее значение признака У;
yiтеор – индивидуальные значения результативного признака У, рассчитанные по уравнению регрессии: yiтеор=f(xi); если уравнение регрессии линейное, то yiтеор=kxi + b, а корреляционное отношение совпадает с модулем коэффициента корреляции η = êrв ê, коэффициент детерминации равен R2= rв2 .
Коэффициент детерминации характеризует тесноту связи между признаками. В количественной форме он указывает какая часть общей дисперсии результативного признака У объясняется вариаций признака Х. Например, если построена статистическая модель, описывающая зависимость объема суточной добычи (У) от мощности пласта (Х) и коэффициент детерминации равен 0,56, то это значит, что 56% дисперсии объема суточной добычи объясняется по выбранной модели вариацией мощности пласта.
Для получения выводов о практической значимости синтезированной модели используются качественные оценки, которые даются на основе шкалы Чеддока [8].
R2 |
0,1 – 0,3 |
0,3 – 0,5 |
0,5 – 0,7 |
0,7 – 0,9 |
0,9 – 0,99 |
Характеристика силы связи |
слабая |
умеренная |
заметная |
высокая |
весьма высокая |
Если график регрессии – кривая линия, то корреляцию называют криволинейной. Параметры уравнения криволинейной регрессии находят по методу наименьших квадратов, а в некоторых случаях сводят задачу к линейной регрессии путем введения соответствующих замен. Ниже приводятся наиболее типичные случаи криволинейной регрессии.
а) Параболическая зависимость
Параметры регрессии a, b, c находятся из решения системы:
(9)
б) Гиперболическая зависимость
Делаем замену и сводим задачу к линейной регрессии . Параметры k и b находятся по формулам линейной регрессии ( с точностью до обозначений):
,
. (10)
где .
в) Логарифмическая зависимость
Делаем замену и сводим задачу к линейной регрессии .
г) Экспоненциальная зависимость
Делаем замену z = ex и сводим задачу к линейной регрессии .
д) Степенная зависимость
Делаем замену z = xm и сводим задачу к линейной регрессии .
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.