Математическая статистика (Основные задачи и понятия математической статистики. Точечные оценки параметров распределения. Основные методы получения точечных оценок. Проверка статистических гипотез. Линейная регрессия)

Страницы работы

Содержание работы

Глава 3. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

3.1. Основные задачи и понятия математической статистики

Установление закономерностей, которым подчиняются случайные массовые явления методами теории вероятности на основе эмпирических (статистических) данных, составляет предмет математической статистики.

Математическая статистика решает две основные задачи:

1) разработку методов сбора, группировки и хранения статистических данных (общая статистика);

2) разработку методов анализа полученных статистических данных:

а) оценку неизвестной вероятности случайного события;

б) оценку неизвестной функции распределения случайной величины;

в) оценку неизвестных параметров распределения при известной функции распределения;

г) оценку зависимости случайных величин от одной или нескольких других случайных величин;

д) проверку статистических гипотез:

– о законе распределения случайной величины;

– о величине параметров распределения случайной величины (при известной функции распределения);

– о совпадении двух распределений;

– о равенстве параметров двух распределений и т.д.

Пусть имеется N объектов произвольной природы, объединённых по некоторому качественному или количественному признаку. Требуется на основе статистических данных установить распределение этого признака.

Наиболее надёжный способ – это полное обследование.

Изучаемая совокупность из N объектов называется генеральной совокупностью.

Выборочной совокупностью или просто выборкой называется nслучайно отобранных объектов.

При таком определении выборки, количественный признак, по которому сформирована генеральная совокупность, является некоторой случайной величиной. Каждому объекту в выборке соответствуют некоторые значения этой случайной величины, которые называются вариантами. Таким образом, выборку можно рассматривать как набор вариант.

С другой стороны, значения вариант от выборки к выборке меняются, т.е. они сами являются случайными величинами. Причём эти случайные величины независимы, одинаково распределены и распределены точно так же, как случайная величина m– количественный признак генеральной совокупности.

Варианты, расположенные в неубывающем порядке, называются вариационным рядом.

Пусть в результате формирования выборки значение признака, равного х1,наблюдалось n1 раз, значение признака, равного х2,наблюдалось n2 раз, …, значение признака, равного хm, – nm  раз. Числа ni  называются частотами вариант, а  – относительными частотами , здесь  – число различных вариант в выборке.

Совокупность пар чисел (xi, ni) или (xi, wi) называется статистическим распределением и обычно представляется в виде таблиц:

Варианты

x1

x2

x m

или

Варианты

x1

x2

x m

Частоты

n1

n2

nm

Относительные частоты

w1

w2

wm

Статистическое распределение является аналогом закона распределения дискретной случайной величины.

           Если количественный признак генеральной совокупности является непрерывной случайной величиной, трудно ожидать, что в выборке будут появляться одинаковые варианты (в теории вероятностей было получено, что для непрерывной случайной величины  – фиксированного возможного значения), т.е. наиболее вероятно, что все ni = 1. В этом случае строится интервальное статистическое распределение. Пусть  – вариационный ряд, т.е.

.

Этот вариационный ряд разбивается на l промежутков, обычно равной длины . При этом  – шаг разбиения,  – граничные точки промежутков. В качестве частоты  принимается число вариант, попавших в -й промежуток.

Для графического представления статистического распределения используется полигон и гистограмма.

Полигон – это ломаная, соединяющая точки  или , .

Для интервального статистического распределения вместо  берутся середины интервалов. Полигон является аналогом плотности распределения случайной величины, если она непрерывна.

Гистограмма– это ступенчатая фигура, состоящая из прямоугольников, основаниями которых являются промежутки разбиения, а высотами частоты  или относительные частоты wi или эмпирические вероятности

.

В последнем случае площадь ступенчатой фигуры равна единице, действительно

.

Если выбирается , то гистограмма является аналогом плотности распределения вероятностей непрерывной случайной величины.

            Пусть nх – число вариант в выборке, которые меньше, чем х.

Функция вида  называется эмпирической функцией распределения.

Эта функция обладает всеми свойствами функции распределения случайной величины, а именно:

. ;

 – неубывающая функция;

. .

Все свойства легко выводятся непосредственно из определения.

Как функция многомерной случайной величины эмпирическая функция распределения , в свою очередь, тоже является случайной величиной.

Теорема 3.1. (Гливенко–Кантелли)

"e > 0, "xÎR: ,  или  ,

где  – теоретическая функция распределения количественного признака генеральной совокупности.

Доказательство. Для любого фиксированного х с каждой вариантой выборки хk можно связать случайное событие Аk = (xk < x). Если появление события  назвать успехом, то  – число успехов в  независимых испытаниях схемы Бернулли, тогда

pk = Р(Аk) = Р(хk < x) = Р(m < x) = Fm(x)

– вероятность успеха,

 =

– относительная частота успеха.

Следовательно, по теореме Бернулли:

Р(|| < e) = 1,      P(|| < e) = 1.

Вывод:при  эмпирическая функция распределения утрачивает случайный характер и сколь угодно близко приближается к теоретической функции распределения.

График эмпирической функции распределения выглядит как график функции распределения дискретной случайной величины.

Таким образом, эмпирическая функция распределения – это аналог функции распределения случайной величины.

3.2. Точечные оценки параметров распределения

Предположим, что в результате наблюдений получена случайная выборка  из генеральной совокупности с известной функцией распределения. . Относительно этой функции известно, что она принадлежит некоторому параметрическому семейству функций распределения, т.е.

,

где q  – параметр, который может быть как числовым, так и векторным. Как правило, если не оговорено противное, будем считать, что  -  числовой параметр.

Требуется только по данным случайной выборки найти значение параметра q.

Произвольная функция  =(х1, …, хn), зависящая только от вариант выборки, значение которой приближенно равно параметру q, называется точечной оценкой этого параметра.

Оценка , как функция многомерной случайной величины, также является случайной величиной, функцию распределения которой можно найти, и эта функция распределения будет также зависеть от параметра q.

Для непрерывной случайной величины m:

,

где  D:f(x; q) – плотность распределения случайной величины m.

Для дискретной случайной величины строится закон распределения:

,

где , ,  – возможные значения случайной величины m, L – число различных возможных значений.

Пример 3.1. В последовательности n испытаний Бернулли P(A) = p = q. Построить закон распределения оценки параметра .

Решение. Пусть mi – число появлений события А в i–м испытании. Множество возможных значений mi: {0, 1}. Закон распределения mi:

mi

0

1

P

1–q

q

Похожие материалы

Информация о работе