Исследование зависимостей. Конечные прикладные цели статистического исследования зависимостей. Выбор общего вида функции регрессии

Страницы работы

Фрагмент текста работы

иметь нормированное нормальное распределение (с единичной дисперсией). Таким образом пункт б) доказан.

Оценивание при наличии линейных ограничений.

Пусть модель имеет вид:

, где  - матрица  ранга . Предположим, что мы хотим найти оценки параметра , минимизируя , при наличии линейных ограничений , где  - известная  матрица, а  - известный вектор .

Применим метод множителей Лагранжа. Рассмотрим выражение: , где  - вектор множителей Логранжа. Решим уравнения:

                                                          (2.1)

              (2.2)

Решения уравнений (2.1) и (2.2) обозначим через  и . Тогда из (2.2) получаем:

, а из (2.1):

.

Поскольку матрица  - п.п.о., то матрица  будет п.п.о. ранга . Следовательно

.

Окончательно подставляя в (2.3):

.     (2.4)

Общая линейная гипотеза.

Пусть мы хотим проверить гипотезу H: , где  - известная  матрица,  - известный  вектор.

Обозначим:

       и

где  нами вычислен в виде (2.4). Таким образом  - минимальное значение  при ограничениях .

Теорема 2.3.

1.  доказать самостоятельно.

2.

3. Если гипотеза H верна, то статистика

                                                                                (2.5) имеет распределение  гипотеза H принимается если , где  - критическая точка.

4. Если , то статистика  принимает вид:

, где  - симметричная и идемпотентная матрица и ,

.

Частный случай: проверка значимости параметра H:  или H: , где  - вектор-строка, в которой на j-ом месте стоит 1, на остальных местах – нули. Обозначим  - j-ый диагональный элемент. Тогда:

                                                                                           (2.6) имеет при гипотезе H распределение .

Доверительное оценивание.

Совместное доверительное оценивание параметрических функций.

Проверку гипотезы H в теореме 2.3 можно трактовать следующим образом:

,                                                                                                     (2.7) т.е. вероятность того, что случайная величина  не превзойдет некоторого наперед заданного положительного числа,  равна , где , .

Обозначим , . Если принять, что  мы знаем, а вектор  нам неизвестен, то неравенство в фигурных скобках (2.7) можно трактовать как поверхность и внутренность  - мерного эллипсоида с центром в точке :

.                                                                                (2.8)

Размеры эллипсоида определяются величиной, стоящей в правой части неравенства (2.8), а его конфигурация зависит от матрицы . Вероятность того, что эллипсоид покрывает вектор истинных параметрических функций  равна .

Совместное доверительное оценивание вектора параметров

Рассмотрим частный случай , тогда неравенство (2.8) преобразуется к виду:

.                                                                                                                     (2.9)

Неравенство (2.9) выражает поверхность и внутренность доверительного эллипсоида для всех параметров с центром в точке , который с вероятностью  накрывает вектор истинных значений всех параметров.

Доверительное оценивание для отдельного параметра.

Доверительный интервал для отдельного параметра также можно получить исходя из общего выражения (2.8) и пользуясь (2.6):

                                                                                   (2.10)

Учитывая, что , и что , где  - -критерий Стьюдента, , то (2.10) можно записать в виде:

.

Или в виде двухстороннего неравенства:

.

Доверительное оценивание для математического ожидания.

Аналогично можно записать интервальную оценку для истинного значения математического ожидания функции отклика в точке .

Имеем:

/

С учетом (2.11):

,                                                                                (2.12) где , .

Для : .

В качестве  используется подходящая оценка (см. предыдущую лекцию).

Проверка значимости уравнения регрессии.

Пусть задана линейная модель:

,

и требуется установить является ли регрессия с заданными регрессорами значимой, т.е. мы хотим проверить гипотезу H: .

Гипотеза H имеет вид: , где  -  матрица ранга . Применима общая теория с ,  и .

Оценивание параметров линейной регрессионной модели в условиях повторных наблюдений

Рассмотрим более общий случай, когда среди опытов, входящих в эксперимент, имеются повторные.

Без ограничения общности можно сгруппировать опыты по сериям так чтобы каждая из них содержала все повторные опыты, которые проведены при одних и тех же условиях.

Положим, что всего имеются Nc серий и в каждую v - ю  серию входят rv - повторных опытов, . Общее число опытов    

Поэтому F статистика занимается

 ,                 (2.12)

и   если гипотеза H верна                                                (2.13).    

Если гипотеза H отвергается, то это означает, что регрессия значима и переменные   нельзя пренебрегать. (Регрессия значима – значит, её нельзя свести к уравнению .). В то же время отклонения H вовсе не означает, что модель , действительно адекватна.

Как и раньше рассматриваем линейную модель наблюдения                                                                      (2.14)

Или в матричной форме                                                 (2.15)

Будем считать, что элементы векторов  и строки матрицы X сгруппированы его сериям. Введем матрицу  усреднения

 размером  Nс * N , где   - вектор столбец размерности , соcтоящий из единиц. Из структуры этой матрицы видно, что

                                                                 (2,16),

где  R - диагональная матрица весов, впрягающая распределения опытов его сериям. Умножим теперь левую и правую часть (2.15) слева на матрицу S и получим  . Легко понять, что вектор  в качестве элементов  имеет среднее значения отклика по  сериям:

, причем,

Матрица  содержит  строк, которые отличаются друг от друга и соответствуют разным сериям:

                                                                    

                                                                 

 


                                                

 


      

 


                                               

Вектор усреднённых ошибок имеет вид 

,           

Учитывая, что

       

Получим

      

Сумму взвешенных средних квадратичных отклонений для модели  (2.15) можно записать в виде квадратичной формы

Опуская сомножитель , запишем

                                                               (2.18)

Для модели (2.17) аналогичная мера рассогласования будет иметь вид

Опуская  , запишем

                                                         (2.19)

Матрица весов R может быть представлена в виде произведений

R=QT Q,                                                                                                (2.20)

где  Q- матрица размером N * Nc

,        где  -  столбец единиц

Подставляя (2.20) в  (2.19) получим

,                                                   (2.21)

где вектор  – имеет уже N – составляющих, как и вектор .

Суммы SS(q) и SS1(q) связаны  между собой. Используя перегруппировку слагаемых  первой суммы, можно показать, что    

, где   и не зависимы от . Поэтому совершенно безразлично какой мерой рассогласования  пользоваться для отыскания оценок параметров: (2.18), (2.19)  или  (2.21).

Точечную оценку дисперсии ошибки эксперимента в случае, когда имеется повторные опыты лучше всего определять через сумму (2.23)  по формуле , где   число  степеней свободы  суммы SSe , равное

. Оценка  есть не что иное, как объединенная оценка выборочных дисперсий ошибки опыта, которые можно найти по результатам отдельных серий  повторных опытов.

Оценка дисперсии ошибки в  g- ой  серии повторных опытов равна

,  где  , .

Отсюда следует, что  объединенная оценка по всем сериям имеет вид

.                                      (2.23)

Заметим, что оценка  определяется независимо от модели.

При вычислении суммы SSe  никак не используются параметры  модели  и несущественно, какому распределению подчиняются отклики.

При      имеется следующие соотношения:

                                                               (2.24) где SSE  -  остаточная сумма со степенями свободы

- мера степени неадекватности представления экспери ментальных данных с помощью выбранной модели. Она оценивает рассеивания средних значений отклика  по сериям относительно расчетной регрессивной зависимости с учётом весов  (Lack of fit – неадекватность).

Оценка дисперсии на основе  суммы SSLF  вычисляется по формуле

           ,                              (2.25)

Оценка величины  на основе  SSR    выражается  отношением

               ,    .

Оценка  величины   является, по существу, объединённой.

Используя (2.24) и учитывая, что   можно записать

.

Проверка адекватности модели

Одной из важных  гипотез, проверяемых в регрессионном анализе

Информация о работе