– сумма квадратов отклонений наблюдений
относительно среднего значения наблюдений, ее называют полной (общей суммой)
квадратов СКП.
– сумма квадратов отклонений значений линии
регрессии относительно среднего наблюдений, ее называют суммой квадратов
обусловленной регрессией, СКр.
– сумма квадратов отклонений наблюдений
относительно значений линии регрессии, ее называют остаточной суммой квадратов СК0.
Подчеркнем, что приведенное тождество справедливо только при наличии в модели параметра a.
Вычисления по проверке значимости регрессии проводят в следующей таблице дисперсионного анализа
Источник дисперсии |
Суммы квадратов |
Степени свободы |
Дисперсии (средние квадраты) |
F-отношение |
регрессия |
СКр |
1 |
|
|
остаточная |
СК0 |
n-2 |
|
|
полная (общая) |
СКП |
n-1 |
Если ошибки εi распределены по
нормальному закону, то при справедливости H0: b = 0
статистика распределена по закону Фишера с числом
степеней свободы 1 и n-2. Нулевая гипотеза будет отклонена на уровне
значимости α, если значение статистики F будет больше
α-процентной точки распределения Фишера.
При условии, что ошибки εi имеют
нормальное распределение, оценки и
, являющиеся линейными комбинациями нормально
распределенных величин, тоже распределены нормально с параметрами
|
|
|
|
Поскольку истинное значение дисперсии σ2 неизвестно, его заменяют оценкой s02. Это позволяет обычными методами построить доверительные интервалы для параметров a и b.
Проверка адекватности модели регрессии
Проверка адекватности модели простой линейной регрессии (под адекватностью понимается, что никакая другая модель не дает значимого улучшения в предсказании отклика) может быть осуществлена в случае, если наблюдения отклика проводились при одинаковых значениях переменной X два или более раз. Тогда модель регрессии будет иметь вид
,
;
.
Оценки параметров даются иногда выражениями:
,
,
где
;
;
.
Можно показать, что при наличии повторных наблюдений отклика остаточную сумму квадратов СК0 можно представить в виде
.
Первый член в правой части – это сумма квадратов “чистых” ошибок, второй член – сумма квадратов неадекватности. Последняя сумма имеет m-2 степеней свободы, следовательно, дисперсия неадекватности
.
Статистикой критерия для проверки гипотезы H0: простая линейная модель адекватна, против гипотезы H1: простая линейная модель неадекватна, является случайная величина
.
При справедливости нулевой гипотезы статистика F имеет распределение Фишера со степенями свободы m-2 и n-m. Гипотеза линейности линии регрессии должна быть отвергнута на уровне значимости α, если полученное значение статистики больше α-процентной точки распределения Фишера с числом степеней свободы m-2 и n-m.
Отметим сходство между суммой квадратов “чистых” ошибок и внутригрупповой суммы квадратов в однофакторном дисперсионном анализе.
Коэффициент детерминации
Иногда для характеристики качества линии регрессии
используют выборочный коэффициент детерминации ,
который показывает, какую часть сумма квадратов, обусловленная регрессией СКр,
составляет в полной сумме квадратов СКп:
,
где СК0 – остаточная сумма квадратов.
Чем ближе к единице, тем лучше
регрессия аппроксимирует экспериментальные данные, тем теснее наблюдения примыкают
к линии регрессии.
Вместо коэффициента детерминации в прошлом использовалась статистика,
которой некоторые исследователи отдавали предпочтение. Это так называемая
нормированная (приведенная) R2 статистика
,
где p – число параметров линейной модели регрессии.
Применительно к простой линейной регрессии
.
В случае простой линейной регрессии коэффициент R2 равен квадрату коэффициента корреляции r2.
7.3 Вопросы для самоконтроля
1. Какие задачи решаются в регрессионном анализе?
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.