Учебно-справочное руководство по статистическим расчетам в изучении курса "Математическая статистика", страница 3

Из данной диаграммы видно, что множество точек корреляционного поля четко распадается на два подмножества (верхнее В и нижнее Н). Последующий анализ данных с учетом других, в том числе и качественных признаков, выявил, что множество Н соответствует выбросоопасным пластам угля, а множество В – не выбросоопасным пластам. Поэтому, на данном этапе исследования целесообразно проводить обработку статистических данных отдельно для  выбросоопасных и не выбросоопасных пластов.

1.2 Группировка статистических данных

Первичная обработка статистических данных позволяет получить из исходного материала путем группировки статистический ряд (точечный или интервальный), а также эмпирическую плотность распределения и эмпирическую  функцию распределения признака Х. Основные этапы первичной обработки:

а) определение минимального (хmin)  и максимального (хmах) элементов выборки;

б) определение рационального числа интервалов разбиения. Здесь нужно использовать формулу Стэрджесса: 

k = 1 + 3,322× lg n при n <100;   

k £ 10                            при n ³ 100.

в) определение шага интервала   h = (хmax – хmin) / k

    *допускается округлять в удобную для пользователя сторону.

г) подсчет числа частот ni  (можно при помощи штриховой отметки);

д) заполнение таблицы. Шаблон таблицы приводится ниже.

Интервалы

Штриховая отметка

Частота   ni

Середина интервала хi

Частости

wi

Ордината гистограммы

Накопленные частоты

Ордината кумуляты

1

2

S

S1

S2

S3

Частости вычисляются по формуле: wi= ni/n.

Гистограмма характеризует эмпирическую плотность распределения, и ординаты ее точек определяются по формуле:  yi= wi/h. Также по этим точкам строят полигон относительных частот. Если плотность распределения генеральной совокупности является достаточно гладкой функцией, то полигон относительных частот является более хорошим приближением плотности, чем гистограмма.

Накопленные частоты для каждого i –го интервала находятся как суммы частот ni , начиная с первого интервала по i –ый.

Кумулята является графиком эмпирической функции распределения  и ее ординаты равны накопленным частотам, деленным на объем выборки n.

Последняя строка таблицы S содержит суммы  элементов некоторых столбцов  и используется для контроля. При правильном заполнении таблицы должны выполняться следующие равенства:

                      S1 = n ;   S2 = 1 ;  S3×h =1 .

Заполненная таблица позволяет записать статистический ряд (точечный или интервальный), а также построить гистограмму, кумуляту и полигон для данного распределения.

1.3  Графическое представление статистических данных

Графически статистические данные представляются  гистограммой и полигоном относительных частот, а также кумулятой. При построении гистограммы на оси абсцисс откладывают интервалы разбиения признака Х, при построении полигона – середины интервалов разбиения признака х i . По оси ординат  в каждом случае откладывают ординаты wi/h. Полученную ступенчатую фигуру называют гистограммой, ломаную линию – полигоном.

При построении кумуляты на оси абсцисс откладывают интервалы разбиения признака Х, а по оси ординат  откладывают рассчитанные ординаты кумуляты, причем крайняя левая точка имеет нулевую ординату, остальные значения  ординат берутся из таблицы и  соответствуют границам интервалов.

1.4  Задача 1. Первичная обработка

          В качестве примера возьмем задачу об установлении корреляционной зависимости между мощностью пласта и производительностью рабочего. В дальнейшем эта задача будет использоваться нами как основная учебная на всех этапах исследования.

Задача1. В нижеследующей таблице собраны сведения о производительности труда рабочего очистного забоя для струговых установок на антрацитовых шахтах. Обозначения: Х – мощность пласта, м; У – производительность рабочего (средняя за месяц), т/вых.

Таблица1

Х

1,13

1,14

1,13

1,13

1,14

1,09

1,53

1,5

1,44

1,4

1,5

1,35

1,4

У

8,4

7,1

7,7

7,6

8,2

6,9

10,9

11,4

13,5

9,5

9,2

10,7

12,5

Х

1,11

0,91

0,96

0,96

0,96

1,23

0,97

1,11

0,99

1

1,33

1,15

1,15

У

7,9

3,7

5,6

6,8

6,9

7,1

6,1

5,8

6,4

3,4

8,2

6,5

6,2

Х

1,12

1,15

1,15

0,88

1,28

1,12

1,2

1,24

0,85

1,2

1,12

1,24

0,91

У

4,9

6,4

6,1

5,6

6,4

6,8

6

5,5

4,8

3,5

10,1

6,2

3,2

Х

1

0,94

1,11

1,13

1,13

1,33

0,94

0,83

1,1

1,5

1,2

1,15

1,29

У

7,8

4,1

5,1

8,5

8,7

8

6,2

14

9,6

1

8,3

9,8

6,1

1. Провести первичную обработку статистических данных (включая проверку данных). Результаты представить в виде таблиц. Построить статистические ряды для каждого признака.

2. Построить гистограмму, полигон относительных частот и кумуляту по каждому признаку.