Глава 3. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
3.1. Основные задачи и понятия математической статистики
Установление закономерностей, которым подчиняются случайные массовые явления методами теории вероятности на основе эмпирических (статистических) данных, составляет предмет математической статистики.
Математическая статистика решает две основные задачи:
1) разработку методов сбора, группировки и хранения статистических данных (общая статистика);
2) разработку методов анализа полученных статистических данных:
а) оценку неизвестной вероятности случайного события;
б) оценку неизвестной функции распределения случайной величины;
в) оценку неизвестных параметров распределения при известной функции распределения;
г) оценку зависимости случайных величин от одной или нескольких других случайных величин;
д) проверку статистических гипотез:
– о законе распределения случайной величины;
– о величине параметров распределения случайной величины (при известной функции распределения);
– о совпадении двух распределений;
– о равенстве параметров двух распределений и т.д.
Пусть имеется N объектов произвольной природы, объединённых по некоторому качественному или количественному признаку. Требуется на основе статистических данных установить распределение этого признака.
Наиболее надёжный способ – это полное обследование.
Изучаемая совокупность из N объектов называется генеральной совокупностью.
Выборочной совокупностью или просто выборкой называется nслучайно отобранных объектов.
При таком определении выборки, количественный признак, по которому сформирована генеральная совокупность, является некоторой случайной величиной. Каждому объекту в выборке соответствуют некоторые значения этой случайной величины, которые называются вариантами. Таким образом, выборку можно рассматривать как набор вариант.
С другой стороны, значения вариант от выборки к выборке меняются, т.е. они сами являются случайными величинами. Причём эти случайные величины независимы, одинаково распределены и распределены точно так же, как случайная величина m– количественный признак генеральной совокупности.
Варианты, расположенные в неубывающем порядке, называются вариационным рядом.
Пусть в результате формирования выборки значение признака, равного х1,наблюдалось n1 раз, значение признака, равного х2,наблюдалось n2 раз, …, значение признака, равного хm, – nm раз. Числа ni называются частотами вариант, а – относительными частотами , здесь – число различных вариант в выборке.
Совокупность пар чисел (xi, ni) или (xi, wi) называется статистическим распределением и обычно представляется в виде таблиц:
Варианты |
x1 |
x2 |
… |
x m |
или |
Варианты |
x1 |
x2 |
… |
x m |
Частоты |
n1 |
n2 |
… |
nm |
Относительные частоты |
w1 |
w2 |
… |
wm |
Статистическое распределение является аналогом закона распределения дискретной случайной величины.
Если количественный признак генеральной совокупности является непрерывной случайной величиной, трудно ожидать, что в выборке будут появляться одинаковые варианты (в теории вероятностей было получено, что для непрерывной случайной величины – фиксированного возможного значения), т.е. наиболее вероятно, что все ni = 1. В этом случае строится интервальное статистическое распределение. Пусть – вариационный ряд, т.е.
.
Этот вариационный ряд разбивается на l промежутков, обычно равной длины . При этом – шаг разбиения, – граничные точки промежутков. В качестве частоты принимается число вариант, попавших в -й промежуток.
Для графического представления статистического распределения используется полигон и гистограмма.
Полигон – это ломаная, соединяющая точки или , .
Для интервального статистического распределения вместо берутся середины интервалов. Полигон является аналогом плотности распределения случайной величины, если она непрерывна.
Гистограмма– это ступенчатая фигура, состоящая из прямоугольников, основаниями которых являются промежутки разбиения, а высотами частоты или относительные частоты wi или эмпирические вероятности
.
В последнем случае площадь ступенчатой фигуры равна единице, действительно
.
Пусть nх – число вариант в выборке, которые меньше, чем х.
Функция вида называется эмпирической функцией распределения.
Эта функция обладает всеми свойствами функции распределения случайной величины, а именно:
. ;
– неубывающая функция;
. .
Все свойства легко выводятся непосредственно из определения.
Как функция многомерной случайной величины эмпирическая функция распределения , в свою очередь, тоже является случайной величиной.
"e > 0, "xÎR: , или ,
где – теоретическая функция распределения количественного признака генеральной совокупности.
Доказательство. Для любого фиксированного х с каждой вариантой выборки хk можно связать случайное событие Аk = (xk < x). Если появление события назвать успехом, то – число успехов в независимых испытаниях схемы Бернулли, тогда
pk = Р(Аk) = Р(хk < x) = Р(m < x) = Fm(x)
– вероятность успеха,
=
– относительная частота успеха.
Следовательно, по теореме Бернулли:
Р(|| < e) = 1, P(|| < e) = 1.
Вывод:при эмпирическая функция распределения утрачивает случайный характер и сколь угодно близко приближается к теоретической функции распределения.
График эмпирической функции распределения выглядит как график функции распределения дискретной случайной величины.
Таким образом, эмпирическая функция распределения – это аналог функции распределения случайной величины.
3.2. Точечные оценки параметров распределения
Предположим, что в результате наблюдений получена случайная выборка из генеральной совокупности с известной функцией распределения. . Относительно этой функции известно, что она принадлежит некоторому параметрическому семейству функций распределения, т.е.
,
где q – параметр, который может быть как числовым, так и векторным. Как правило, если не оговорено противное, будем считать, что - числовой параметр.
Требуется только по данным случайной выборки найти значение параметра q.
Произвольная функция =(х1, …, хn), зависящая только от вариант выборки, значение которой приближенно равно параметру q, называется точечной оценкой этого параметра.
Оценка , как функция многомерной случайной величины, также является случайной величиной, функцию распределения которой можно найти, и эта функция распределения будет также зависеть от параметра q.
Для непрерывной случайной величины m:
,
где D:, f(x; q) – плотность распределения случайной величины m.
Для дискретной случайной величины строится закон распределения:
,
где , , – возможные значения случайной величины m, L – число различных возможных значений.
Пример 3.1. В последовательности n испытаний Бернулли P(A) = p = q. Построить закон распределения оценки параметра .
Решение. Пусть mi – число появлений события А в i–м испытании. Множество возможных значений mi: {0, 1}. Закон распределения mi:
mi |
0 |
1 |
P |
1–q |
q |
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.