Исследование Законов распределения. Статистики Колиогорова, страница 5

                       Sk = (6nDn + 1)/ 6   ,                       (1.9)

где Dn = .                      (1.10)

Здесь νi – число повторений i-го элемента выборки случайных чисел,

           n – объём выборки,

           рi  - вероятность выпадания i-го элемента выборки.

Для того, чтобы определить распределение статистики (1.9), необходимо сделать следующее:

1.  Для заданного параметра выбранного распределения сгенерировать большое число выборок.

2.  Вычислить для сгенерированных выборок статистики Колмогорова по формуле (1.9).

3.  Идентифицировать распределение G(Sk| H0).

Если статистика Колмогорова подчиняется распределению (1.6), то данный критерий можно использовать без изменений. Иначе надо установить множество законов распределения, которым подчиняется статистика (1.9) при изменении вида дискретного распределения, объёма выборки и значений параметров.

1.7. Критерий согласия хи-квадрат Пирсона

На практике вычисление статистики Dn – трудоёмкая задача, поэтому часто применяют другой критерий [13], называемый критерием χ2. Его можно использовать для любых распределений, в том числе и многомерных. Чтобы воспользоваться этим критерием, выборочные данные предварительно группируют, т.е. переходят к частному представлению исходных данных. Пусть ν = (ν1, …,νN) – вектор частот попадания выборочных точек в соответствующие интервалы группировки Е1, …, ЕN  (ν1+…+ νN = n) и р0=(р01,…, р0N), где р0j = P(ξ € Еj| H0), j = 1,…,N. В этом случае гипотеза Н0 сводится к гипотезе о том, что вероятности полиномиального распределения построенного вектора частот ν имеют заданные значения р0j, j=1,…,N. В качестве статистики, характеризующей отклонение выборочных данных (т.е. частот νj) от соответствующих гипотетических значений  (в данном случае от средних Е(νj| H0) = np0j), принимают величину [13]

(1.11)

а критическую область задают в виде Г= {t ≥ tα}. Точное распределение L(X2n| H0) неудобно для вычисления (при заданном уровне значимости) критической границы tα, но для больших объёмов выборок n статистика Х2n имеет при гипотезе Н0 простое предельное распределение, не зависящее от гипотезы (т.е. от чисел р0j). Справедливо следующее утверждение.

Теорема 1.1. Если 0 < р0j < 1, j=1, …, N, при n®¥    L(X2n|H0)®c2(N-1) [13].

На практике предельное распределение c2(N-1) можно использовать с хорошим приближением уже при n³50 и vj³5. При выполнении этих условий  в соответствии с теоремой 1.1 критическую границу ta выбирают равной c21-a, N-1, т. е. (1-a) - квантили распределения  c2(N-1). Действительно, в этом случае Рn2ÎГ1a| H0)=Pn2³c21-a, N-1| H0

(здесь kN-1(x) - плотность распределения c2(N-1)).

Таким образом, критерий согласия c2 имеет следующий вид: пусть заданы уровень значимости a и объем выборки n и наблюдающиеся значения h=(h1, … , hN) вектора частот v=(v1, … , vN) удовлетворяют условиям n³50, hi³5, j=1, …, N; тогда если наблюдавшееся значение t=Xn2(h)статистики (1.11) удовлетворяет неравенству t³ c21-a, N-1, то гипотезу Н0 отвергают; в противном случае гипотеза Н0 не противоречит результатам испытаний.

Сделаем несколько общих замечаний [14]. Критерий согласия c2 применяется  в тех случаях, когда в каждом опыте наблюдается одно из N несовместимых событий А1, … , АN и заданы частоты появлений этих событий в n испытаниях (говорят также, что наблюдается дискретная случайная величина, принимающая N различных значений). Если же выборка имеет непрерывный закон распределения, то, применяя предварительно метод группировки данных, приходят к рассмотрению дискретной схемы,  которой в качестве событий  Аj рассматриваются события {xÎEj}, где E1, ... ,EN - интервалы группировки. Недостатком метода является то, что группировка данных по классам (интервалам) приводит к некоторой потере информации. Кроме того, остается еще вопрос о выборе числа интервалов N и длине самих интервалов Ej. Однако критерий c2 имеет и некоторые достоинства: при его применении нет необходимости учитывать точные значения наблюдений (бывают случаи, когда исходные статистические данные носят не числовой характер). Несомненным преимуществом этого критерия является его универсальность.