Математика \ Теория вероятностей и математическая статистика

Математическая статистика (Основные задачи и понятия математической статистики. Точечные оценки параметров распределения. Основные методы получения точечных оценок. Проверка статистических гипотез. Линейная регрессия)

Страницы работы

24 страницы (Word-файл)

Посмотреть все страницы

Скачать файл

Содержание работы

Глава 3. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

3.1. Основные задачи и понятия математической статистики

Установление закономерностей, которым подчиняются случайные массовые явления методами теории вероятности на основе эмпирических (статистических) данных, составляет предмет математической статистики.

Математическая статистика решает две основные задачи:

1) разработку методов сбора, группировки и хранения статистических данных (общая статистика);

2) разработку методов анализа полученных статистических данных:

а) оценку неизвестной вероятности случайного события;

б) оценку неизвестной функции распределения случайной величины;

в) оценку неизвестных параметров распределения при известной функции распределения;

г) оценку зависимости случайных величин от одной или нескольких других случайных величин;

д) проверку статистических гипотез:

– о законе распределения случайной величины;

– о величине параметров распределения случайной величины (при известной функции распределения);

– о совпадении двух распределений;

– о равенстве параметров двух распределений и т.д.

Пусть имеется N объектов произвольной природы, объединённых по некоторому качественному или количественному признаку. Требуется на основе статистических данных установить распределение этого признака.

Наиболее надёжный способ – это полное обследование.

Изучаемая совокупность из N объектов называется генеральной совокупностью.

Выборочной совокупностью или просто выборкой называется nслучайно отобранных объектов.

При таком определении выборки, количественный признак, по которому сформирована генеральная совокупность, является некоторой случайной величиной. Каждому объекту в выборке соответствуют некоторые значения этой случайной величины, которые называются вариантами. Таким образом, выборку можно рассматривать как набор вариант.

С другой стороны, значения вариант от выборки к выборке меняются, т.е. они сами являются случайными величинами. Причём эти случайные величины независимы, одинаково распределены и распределены точно так же, как случайная величина m– количественный признак генеральной совокупности.

Варианты, расположенные в неубывающем порядке, называются вариационным рядом.

Пусть в результате формирования выборки значение признака, равного х₁,наблюдалось n₁ раз, значение признака, равного х₂,наблюдалось n₂ раз, …, значение признака, равного х_m, – n_m раз. Числа n_i называются частотами вариант, а – относительными частотами , здесь – число различных вариант в выборке.

Совокупность пар чисел (x_i, n_i) или (x_i, w_i) называется статистическим распределением и обычно представляется в виде таблиц:

Варианты	x₁	x₂	_…	x_m	или	Варианты	x₁	x₂	_…	x_m
Частоты	n₁	n₂	_…	n_m		Относительные частоты	w₁	w₂	_…	w_m

Статистическое распределение является аналогом закона распределения дискретной случайной величины.

Если количественный признак генеральной совокупности является непрерывной случайной величиной, трудно ожидать, что в выборке будут появляться одинаковые варианты (в теории вероятностей было получено, что для непрерывной случайной величины – фиксированного возможного значения), т.е. наиболее вероятно, что все n_i= 1. В этом случае строится интервальное статистическое распределение. Пусть – вариационный ряд, т.е.

Этот вариационный ряд разбивается на l промежутков, обычно равной длины . При этом – шаг разбиения, – граничные точки промежутков. В качестве частоты принимается число вариант, попавших в -й промежуток.

Для графического представления статистического распределения используется полигон и гистограмма.

Полигон – это ломаная, соединяющая точки или , .

Для интервального статистического распределения вместо берутся середины интервалов. Полигон является аналогом плотности распределения случайной величины, если она непрерывна.

Гистограмма– это ступенчатая фигура, состоящая из прямоугольников, основаниями которых являются промежутки разбиения, а высотами частоты или относительные частоты w_i или эмпирические вероятности

В последнем случае площадь ступенчатой фигуры равна единице, действительно

Если выбирается , то гистограмма является аналогом плотности распределения вероятностей непрерывной случайной величины.

Пусть n_х – число вариант в выборке, которые меньше, чем х.

Функция вида называется эмпирической функцией распределения.

Эта функция обладает всеми свойствами функции распределения случайной величины, а именно:

. ;

– неубывающая функция;

. .

Все свойства легко выводятся непосредственно из определения.

Как функция многомерной случайной величины эмпирическая функция распределения , в свою очередь, тоже является случайной величиной.

Теорема 3.1. (Гливенко–Кантелли)

"e > 0, "xÎR: , или ,

где – теоретическая функция распределения количественного признака генеральной совокупности.

Доказательство. Для любого фиксированного х с каждой вариантой выборки х_k можно связать случайное событие А_k = (x_k< x). Если появление события назвать успехом, то – число успехов в независимых испытаниях схемы Бернулли, тогда

p_k = Р(А_k) = Р(х_k< x) = Р(m < x) = F_m(x)

– вероятность успеха,

– относительная частота успеха.

Следовательно, по теореме Бернулли:

Р(|| < e) = 1, P(|| < e) = 1.

Вывод:при эмпирическая функция распределения утрачивает случайный характер и сколь угодно близко приближается к теоретической функции распределения.

График эмпирической функции распределения выглядит как график функции распределения дискретной случайной величины.

Таким образом, эмпирическая функция распределения – это аналог функции распределения случайной величины.

3.2. Точечные оценки параметров распределения

Предположим, что в результате наблюдений получена случайная выборка из генеральной совокупности с известной функцией распределения. . Относительно этой функции известно, что она принадлежит некоторому параметрическому семейству функций распределения, т.е.

где q – параметр, который может быть как числовым, так и векторным. Как правило, если не оговорено противное, будем считать, что - числовой параметр.

Требуется только по данным случайной выборки найти значение параметра q.

Произвольная функция =(х₁, …, х_n), зависящая только от вариант выборки, значение которой приближенно равно параметру q, называется точечной оценкой этого параметра.

Оценка , как функция многомерной случайной величины, также является случайной величиной, функцию распределения которой можно найти, и эта функция распределения будет также зависеть от параметра q.

Для непрерывной случайной величины m: