– сумма квадратов отклонений наблюдений относительно среднего значения наблюдений, ее называют полной (общей суммой) квадратов СКП.
– сумма квадратов отклонений значений линии регрессии относительно среднего наблюдений, ее называют суммой квадратов обусловленной регрессией, СКр.
– сумма квадратов отклонений наблюдений относительно значений линии регрессии, ее называют остаточной суммой квадратов СК0.
Подчеркнем, что приведенное тождество справедливо только при наличии в модели параметра a.
Вычисления по проверке значимости регрессии проводят в следующей таблице дисперсионного анализа
Источник дисперсии |
Суммы квадратов |
Степени свободы |
Дисперсии (средние квадраты) |
F-отношение |
регрессия |
СКр |
1 |
||
остаточная |
СК0 |
n-2 |
||
полная (общая) |
СКП |
n-1 |
Если ошибки εi распределены по нормальному закону, то при справедливости H0: b = 0 статистика распределена по закону Фишера с числом степеней свободы 1 и n-2. Нулевая гипотеза будет отклонена на уровне значимости α, если значение статистики F будет больше α-процентной точки распределения Фишера.
При условии, что ошибки εi имеют нормальное распределение, оценки и , являющиеся линейными комбинациями нормально распределенных величин, тоже распределены нормально с параметрами
; |
; |
; |
; |
Поскольку истинное значение дисперсии σ2 неизвестно, его заменяют оценкой s02. Это позволяет обычными методами построить доверительные интервалы для параметров a и b.
Проверка адекватности модели регрессии
Проверка адекватности модели простой линейной регрессии (под адекватностью понимается, что никакая другая модель не дает значимого улучшения в предсказании отклика) может быть осуществлена в случае, если наблюдения отклика проводились при одинаковых значениях переменной X два или более раз. Тогда модель регрессии будет иметь вид
, ; .
Оценки параметров даются иногда выражениями:
,
,
где
; ; .
Можно показать, что при наличии повторных наблюдений отклика остаточную сумму квадратов СК0 можно представить в виде
.
Первый член в правой части – это сумма квадратов “чистых” ошибок, второй член – сумма квадратов неадекватности. Последняя сумма имеет m-2 степеней свободы, следовательно, дисперсия неадекватности
.
Статистикой критерия для проверки гипотезы H0: простая линейная модель адекватна, против гипотезы H1: простая линейная модель неадекватна, является случайная величина
.
При справедливости нулевой гипотезы статистика F имеет распределение Фишера со степенями свободы m-2 и n-m. Гипотеза линейности линии регрессии должна быть отвергнута на уровне значимости α, если полученное значение статистики больше α-процентной точки распределения Фишера с числом степеней свободы m-2 и n-m.
Отметим сходство между суммой квадратов “чистых” ошибок и внутригрупповой суммы квадратов в однофакторном дисперсионном анализе.
Коэффициент детерминации
Иногда для характеристики качества линии регрессии используют выборочный коэффициент детерминации , который показывает, какую часть сумма квадратов, обусловленная регрессией СКр, составляет в полной сумме квадратов СКп:
,
где СК0 – остаточная сумма квадратов.
Чем ближе к единице, тем лучше регрессия аппроксимирует экспериментальные данные, тем теснее наблюдения примыкают к линии регрессии.
Вместо коэффициента детерминации в прошлом использовалась статистика, которой некоторые исследователи отдавали предпочтение. Это так называемая нормированная (приведенная) R2 статистика
,
где p – число параметров линейной модели регрессии.
Применительно к простой линейной регрессии
.
В случае простой линейной регрессии коэффициент R2 равен квадрату коэффициента корреляции r2.
7.3 Вопросы для самоконтроля
1. Какие задачи решаются в регрессионном анализе?
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.