Модель парной линейной регрессии. Точечное и интегральное прогнозирование, страница 9

                                                        N                              N                               N

                                        ∑( yiy)2 = ∑(yiyˆi )2 + ∑(yˆi y)2 .            (34) 

                                                      i=1                           i=1                           i=1

Введем обозначения:

N

TSS = ∑( yiy)2общая сумма квадратов (total sum of squares);

i=1

N

ESS = ∑( yiyˆi )2остаточная сумма квадратов, называемая иногда суммой

i=1

квадратов остатков (error sum of squares);

N

RSS = ∑( yˆ iy)2      – сумма квадратов, обусловленная регрессией или

i=1

объясненная сумма квадратов (regression sum of squares).[1]

В результате получим 

                                                        TSS = ESS + RSS .                             (35) 

Любая сумма квадратов отклонений связана с так называемым «числом степеней свободы». Число степеней свободы зависит от количества наблюдений N и количества определяемых по ним величин. Применительно к общей сумме квадратов число степеней свободы показывает, сколько независимых отклонений из N возможных

                                                (y1 y), (y2 y), … , (yN y)

требуется для вычисления данной суммы квадратов. Наличие известного среднего значения y дает нам возможность произвести вычисление TSS , используя только (N −1) независимых отклонений. Например, имеем пять наблюдений

                                             y1 =1, y2 = 2, y3 = 3, y4 = 4, y5 = 5.

              Среднее значение       y = 3. Отклонения от среднего будут равны

соответственно 

                                                            −2; −1; 0;1; 2.

Так как , то свободно изменяться могут только 4

i=1

отклонения, а оставшееся всегда может быть выражено через них. Таким

образом, число степеней свободы общей суммы квадратов равняется (N −1).

Аналогичным образом можно показать, что число степеней свободы остаточной суммы квадратов равно (N − 2), а число степеней свободы объясненной суммы квадратов равно 1.

Зная все три суммы квадратов, можно делать некоторые предварительные выводы о качестве регрессионного уравнения. Например, если остаточная сумма квадратов намного превышает объясненную, то это говорит о том, что остатки регрессии очень велики. Это может свидетельствовать либо о вычислительных ошибках, либо о том, что построенная регрессионная модель плохо описывает данные. Если же остаточная сумма квадратов много меньше объясненной, то это говорит о малых остатках и хорошем качестве модели. 

Однако такой анализ является поверхностным и не лишен субъективизма. Для объективной оценки качества регрессионного уравнения необходимо использовать некоторые специальные критерии.

Одной из наиболее эффективных оценок качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации

                                                       R2 = −1 ESS = RSS .                           (36) 

                                                                                                 TSS     TSS

Коэффициент детерминации показывает долю объясненной дисперсии в общей дисперсии зависимой переменной и может принимать значения в диапазоне 0 ≤ R2 ≤1. 

Если R2 = 0, то это означает, что общая сумма квадратов равна остаточной, т.е. уравнение регрессии совершенно не объясняет изменения зависимой переменной.

Если R2 =1, то общая сумма квадратов равна объясненной и все наблюдаемые точки лежат точно на линии регрессии, а все остатки нулевые.

Чем ближе значение коэффициента детерминации к единице, тем более точно уравнение регрессии описывает данные. Однако зная только конкретное значение коэффициента детерминации, нельзя делать никаких однозначных выводов о пригодности уравнения к практическому использованию. В зависимости от ситуации значимыми могут признаваться уравнения с коэффициентом детерминации, равным 0.87, и уравнения, коэффициент детерминации которых равен 0.33. А для того чтобы четко определять пригодность уравнения регрессии в каждом конкретном случае, необходима формальная проверка на значимость.