Математическая статистика (Основные задачи и понятия математической статистики. Точечные оценки параметров распределения. Основные методы получения точечных оценок. Проверка статистических гипотез. Линейная регрессия), страница 6

,

где ,  – квантили -распределения с  степенями свободы.

3.6. Линейная регрессия

Пусть теперь количественный признак генеральной совокупности – двумерная случайная величина (m, h). Таким образом, результаты наблюдений (выборка) представляется в виде n пар чисел  (xi, yi),   i = , i – номер наблюдения.

Предположим, что между компонентами  существует линейная зависимость, т.е.  (имеется в виду связь между всеми возможными значениями величин , т.е. для генеральной совокупности).

Наличие случайных отклонений, вызванных воздействием на случайную величину  множества неучтенных факторов и ошибок измерения, приводит к тому, что связь наблюдаемых значений  случайных величин  приобретает вид

,

где  – случайные ошибки (отклонения, возмущения).

Задача состоит в следующем: по имеющимся данным наблюдений  (двумерной выборке) оценить значения параметров  и , обеспечивающих минимум отклонений наблюдаемых значений от точек прямой .

Если бы были известны точные значения , то параметры  и  можно было рассчитать. Однако значения  в выборке неизвестны и по наблюдениям  можно получить лишь точечные оценки  этих параметров, которые сами являются случайными величинами, поскольку соответствуют случайной выборке. Оцененное (выборочное) уравнение регрессии будет иметь вид

,

где  – наблюдаемые значения ошибок .

            Как и в случае случайных величин, параметры  находятся по методу наименьших квадратов (МНК) из условия

,

где  – значение признака вычисленное по выборочному уравнению регрессии. Для того чтобы оценки , полученные по МНК, обладали желательными свойствами, делаются следующие естественные предположения о :

1)  величины  являются случайными;

2)  ;

3)  дисперсии  постоянны, т.е. ;

4)  значения  независимы между собой, т.е. .

Известно, что, если условия 1 – 4 выполняются, то оценки, полученные с помощью МНК, являются несмещенными, состоятельными и эффективными. Перечисленные свойства не зависят от конкретного вида распределения , но обычно предполагается, что они имеют нормальное распределение – .

Найдем оценки параметров  и  по МНК. Запишем необходимое условие существования экстремума функции :

  или  .

Так как     , система преобразуется к виду   ,  откуда  b = ,    , , ,    b = .

В результате выборочное уравнение линейной регрессии  на  будет

Yi = xi +,   Yi =()Yi = (x).

Обозначим  – выборочный коэффициент корреляции, тогда окончательно получим

,

где  – условное выборочное среднее, вычисляемое по выборочному уравнению регрессии.

Данные наблюдений представляются в виде корреляционной таблицы.


x

y1

y2

. . .

ym

nx

x1

. . .

x2

. . .

. . .

. . .

. . .

. . .

. . .

. . .

xl

. . .

nx

ny1

ny2

. . .

nym

n

В первом столбце указываются варианты, соответствующие первой компоненте, в первой строке – варианты, соответствующие второй компоненте, в поле таблицы указываются  – частоты появления пар . Затем таблица дополняется еще одной строкой  и столбцом , где указываются  – частота появления варианты ,  – частота появления варианты .

При этом (n– объём выборки):

 – число различных вариант  соответственно, nxi =  – сумма элементов -й строки корреляционной таблицы, nyj =  – сумма элементов -го столбца корреляционной таблицы, .

Основные выборочные характеристики вычисляются по формулам:

– выборочные средние

,                                           (3.7)

            – выборочные дисперсии

, (3.8)

            – выборочная ковариация

,                                                  (3.9)

– выборочный коэффициент корреляции

.                                                             (3.10)

Если данных очень много, т.е. выборка большого объема, то их группируют и представляют в виде двумерного интервального распределения. Размах выборки по первой компоненте разбивается на  промежутков , а по второй – на  промежутков . Тогда интервальное статистическое распределение представляется в виде следующей таблицы.

y

x

[b0, b1)

 [b1, b2)

. . .

[bm–1, bm)

[a0, a1)

. . .

[a1, a2)

. . .

. . .

. . .

. . .

. . .

. . .

. . .

[al–1, al)

. . .

. . .

n

Теперь в таблице:  – число промежутков разбиения по первой и второй компоненте соответственно,  – число наблюдений (вариант выборки), попавших в прямоугольник со сторонами ; .

Формулы (3.7) – (3.10)  для вычисления выборочных характеристик остаются в силе, но теперь: xi– середины интервалов [ai–1, ai), yj– середины интервалов [bj–1, bj).

Фактические условные средние (выборочные средние второй компоненты, вычисленные в предположении, что первая компонента равна ) находятся по формулам

.

            В том случае, когда варианты выборки являются равноотстоящими, т.е.

;     ,

удобно числовые характеристики вычислять через условные варианты

;          ;

где  – условные варианты,  – расстояния между соседними вариантами,  – ложные нули  – варианты с наибольшей частотой.

            Нетрудно убедиться в том, что условные варианты принимают только целые значения , при этом справедливы равенства:

, , ,

где ;

,

,      ,

,    .