,
где ,
– квантили
-распределения с
степенями свободы.
3.6. Линейная регрессия
Пусть теперь количественный признак
генеральной совокупности – двумерная случайная величина (m, h). Таким образом, результаты наблюдений (выборка) представляется в
виде n пар чисел (xi,
yi), i = ,
i – номер наблюдения.
Предположим, что между компонентами существует линейная зависимость,
т.е.
(имеется в виду связь
между всеми возможными значениями величин
,
т.е. для генеральной совокупности).
Наличие случайных отклонений, вызванных
воздействием на случайную величину множества
неучтенных факторов и ошибок измерения, приводит к тому, что связь наблюдаемых
значений
случайных величин
приобретает вид
,
где – случайные
ошибки (отклонения, возмущения).
Задача состоит в следующем: по имеющимся
данным наблюдений (двумерной
выборке) оценить значения параметров
и
, обеспечивающих минимум отклонений
наблюдаемых значений от точек прямой
.
Если бы были известны точные значения , то параметры
и
можно
было рассчитать. Однако значения
в выборке неизвестны и по наблюдениям
можно
получить лишь точечные оценки
этих
параметров, которые сами являются случайными величинами, поскольку
соответствуют случайной выборке. Оцененное (выборочное) уравнение регрессии
будет иметь вид
,
где – наблюдаемые
значения ошибок
.
Как и в случае случайных величин, параметры находятся по методу наименьших
квадратов (МНК) из условия
,
где – значение
признака вычисленное по выборочному уравнению регрессии. Для того чтобы оценки
, полученные по МНК, обладали
желательными свойствами, делаются следующие естественные предположения о
:
1)
величины являются случайными;
2)
;
3)
дисперсии постоянны, т.е.
;
4)
значения независимы между собой, т.е.
.
Известно, что, если условия 1 – 4
выполняются, то оценки, полученные с помощью МНК, являются несмещенными,
состоятельными и эффективными. Перечисленные свойства не зависят от конкретного
вида распределения , но обычно
предполагается, что они имеют нормальное распределение –
.
Найдем оценки
параметров и
по МНК. Запишем необходимое условие
существования экстремума функции
:
или
.
Так как
,
, система преобразуется к виду
, откуда b =
,
,
,
, b =
.
В результате выборочное уравнение линейной
регрессии на
будет
Yi = xi +
, Yi =
(
)
Yi =
(x
).
Обозначим –
выборочный коэффициент корреляции, тогда окончательно получим
,
где –
условное выборочное среднее, вычисляемое по выборочному уравнению регрессии.
Данные наблюдений представляются в виде корреляционной таблицы.
x |
y1 |
y2 |
. . . |
ym |
nx |
x1 |
|
|
. . . |
|
|
x2 |
|
|
. . . |
|
|
. . . |
. . . |
. . . |
. . . |
. . . |
. . . |
xl |
|
|
. . . |
|
|
nx |
ny1 |
ny2 |
. . . |
nym |
n |
В первом столбце
указываются варианты, соответствующие первой компоненте, в первой строке –
варианты, соответствующие второй компоненте, в поле таблицы указываются – частоты появления пар
. Затем таблица дополняется еще одной
строкой
и столбцом
, где указываются
– частота появления варианты
,
–
частота появления варианты
.
При этом (n– объём выборки):
– число различных вариант
соответственно, nxi =
–
сумма элементов
-й строки
корреляционной таблицы, nyj =
– сумма элементов
-го столбца корреляционной таблицы,
.
Основные выборочные характеристики вычисляются по формулам:
– выборочные средние
,
, (3.7)
– выборочные дисперсии
,
, (3.8)
– выборочная ковариация
, (3.9)
– выборочный коэффициент корреляции
. (3.10)
Если данных очень много, т.е. выборка
большого объема, то их группируют и представляют в виде двумерного
интервального распределения. Размах выборки по первой компоненте разбивается на
промежутков
, а по второй – на
промежутков
. Тогда интервальное статистическое
распределение представляется в виде следующей таблицы.
x |
[b0, b1) |
[b1, b2) |
. . . |
[bm–1, bm) |
|
[a0, a1) |
|
|
. . . |
|
|
[a1, a2) |
|
|
. . . |
|
|
. . . |
. . . |
. . . |
. . . |
. . . |
. . . |
[al–1, al) |
|
|
. . . |
|
|
|
|
|
. . . |
|
n |
Теперь в таблице: – число промежутков разбиения по
первой и второй компоненте соответственно,
–
число наблюдений (вариант выборки), попавших в прямоугольник со сторонами
;
.
Формулы (3.7) – (3.10) для вычисления выборочных характеристик остаются в силе, но теперь: xi– середины интервалов [ai–1, ai), yj– середины интервалов [bj–1, bj).
Фактические условные средние (выборочные
средние второй компоненты, вычисленные в предположении, что первая компонента
равна ) находятся по формулам
.
В том случае, когда варианты выборки являются равноотстоящими, т.е.
;
,
удобно числовые характеристики вычислять через условные варианты
;
;
где – условные
варианты,
– расстояния между
соседними вариантами,
– ложные нули – варианты с наибольшей частотой.
Нетрудно убедиться в том, что условные варианты
принимают только целые значения , при
этом справедливы равенства:
,
,
,
где
;
,
,
,
,
,
.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.