Учебно-справочное руководство по статистическим расчетам в изучении курса "Математическая статистика", страница 13

а) Уравнение линейной регрессии с угловым коэффициентом

Уравнение линейной регрессии У на Х имеет вид: 

                        ,                                                  (3)

где k –  коэффициент регрессии, b – свободный член уравнения регрессии. Параметры уравнения регрессии определяются по фактическим данным, которые представляют собой набор n пар

 (хi ;yi), при помощи метода наименьших квадратов (МНК).

Расчетные формулы имеют вид:

   ,

   .                              (4)

Если учесть формулы средних и дисперсии признаков Х и У, то расчет можно вести по следующим формулам:

  ,                         (5)

где

 

Замечание 1.  Для проверки правильности расчетов можно использовать тождество: 

Замечание 2.   В формулах (5) можно использовать выборочные средние и дисперсии, найденные ранее на этапе одномерного анализа признаков, хотя с учетом группировки может получиться менее точный результат (хотя и более быстрый).

          Расчет сумм, представленных в формулах, удобно производить при помощи табличного процессора Excel, который является электронной версией таблиц. Для расчета в Excel необходимо организовать расчетную таблицу. Ее вид в компьютере будет следующий (для примера взята выборка объемом n = 5):

б) Выборочное  линейное уравнение регрессии

Выборочное  линейное уравнение регрессии У на Х имеет вид: 

                                                   (6)

Выборочное  линейное уравнение регрессии Х на У имеет вид: 

                                                             (7)

В этих уравнениях используются следующие формулы:

дисперсия признака Х;

дисперсия признака У;

rв –  выборочный коэффициент корреляции, вычисляемый по формуле:

                 .                                                                     (6)

Если параметры уравнения были рассчитаны по уравнению регрессии с угловым коэффициентом, то выборочный коэффициент корреляции вычисляется по формуле:                    (7)

5.5 Проверка коэффициента корреляции на значимость.

Пусть признаки Х и У распределены нормально. Из генеральной совокупности извлечена выборка объема n и по ней найден выборочный коэффициент корреляции rв . Требуется проверить гипотезу о значимости генерального коэффициента корреляции rг .

Выдвигаются гипотезы

  Основная гипотеза              Н0 : rг = 0

  Конкурирующая гипотеза    Н1 : rг ≠ 0

 Для проверки гипотезы H 0  вычисляется наблюдаемое значение критерия:

                          .

Этот критерий является случайной величиной, которая подчиняется закону распределения Стьюдента с  k = n – 2 степенями свободы. Критическая область является двусторонней. По таблице критических точек распределения Стьюдента (Приложение 6)  определяется критическое значение критерия при выбранном уровне значимости ошибки a  и числе степеней свободы k :

 tкр = tкр (α; k).

Если  Тнабл > tкр , то нулевая гипотеза отвергается. Это значит, что коэффициент корреляции значимо отличается от нуля  и признаки  Х  и  У коррелированы.

Если  Тнабл < tкр , то нулевая гипотеза  не отвергается. Это значит, что коэффициент корреляции незначимо отличается от нуля  и признаки  Х  и  У некоррелированы.

5.6 Теоретический коэффициент детерминации и теоретическое корреляционное отношение

          Теоретический коэффициент детерминации и теоретическое корреляционное отношение определяются по уравнению регрессии :

 , где Dобїясн уравн регр – дисперсия результативного признака У, объясненная уравнением регрессии; Dобщ – общая дисперсия результативного признака У .

                       (8)

                                            

n – объем выборки;

yi – индивидуальные значения результативного признака У;

 – среднее значение признака У;

yiтеор – индивидуальные значения результативного признака У, рассчитанные  по уравнению регрессии: yiтеор=f(xi); если уравнение регрессии линейное, то yiтеор=kxi + b, а корреляционное отношение совпадает с  модулем коэффициента корреляции η = êrв ê, коэффициент детерминации равен  R2= rв2 .

Коэффициент детерминации характеризует тесноту связи между признаками. В количественной форме он указывает какая часть общей дисперсии результативного признака  У объясняется вариаций признака Х. Например, если построена статистическая модель, описывающая зависимость объема суточной добычи (У) от мощности пласта (Х) и коэффициент детерминации равен 0,56, то это значит, что 56% дисперсии  объема суточной добычи объясняется по выбранной модели вариацией мощности пласта.

Для получения выводов о практической значимости синтезированной модели используются качественные оценки, которые даются на основе шкалы Чеддока [8].

   R2

0,1 – 0,3

0,3 – 0,5

0,5 – 0,7

0,7 – 0,9

0,9 – 0,99

Характеристика силы связи

слабая

умеренная

заметная

высокая

весьма высокая

5.7 Нелинейная корреляция 

          Если график регрессии – кривая линия, то корреляцию называют криволинейной. Параметры уравнения криволинейной регрессии  находят по методу наименьших квадратов, а в некоторых случаях сводят задачу к линейной регрессии путем введения соответствующих замен. Ниже приводятся наиболее типичные случаи криволинейной регрессии.

а) Параболическая зависимость 

Параметры регрессии a, b, c  находятся из решения системы:

                                         (9)

б) Гиперболическая зависимость 

Делаем замену   и сводим задачу к линейной регрессии .  Параметры  k  и b находятся по формулам линейной регрессии ( с точностью до обозначений):

   ,

   .                                 (10) 

где      .

в) Логарифмическая зависимость 

Делаем замену   и сводим задачу к линейной регрессии .

г) Экспоненциальная зависимость 

Делаем замену    z = ex  и сводим задачу к линейной регрессии .

д) Степенная  зависимость 

Делаем замену   z = xm   и сводим задачу к линейной регрессии .