Математична статистика в гірничо-геологічних розрахунках, страница 13

Якщо врахувати формули середніх і дисперсії ознак Х и У, то розрахунок можна вести за наступними формулами:

,                     (5.5)

де

         (5.6)

Зауваження 1. Для перевірки правильності розрахунків можна використовувати тотожність:

Зауваження 2. У формулах (5.5) можна використовувати вибіркові середні і дисперсії, знайдені раніше на етапі одномірного аналізу ознак (п.2.2.4), тільки треба обчислити середній добуток за групованими даними (х, у) по кореляційній решітці.

Розрахунок сум, представлених у формулах, зручно робити за допомогою табличного процесора Excel, що є електронною версією таблиць. Для розрахунку в Excel необхідно організувати розрахункову таблицю. Її вид у комп'ютері буде такий (для приклада узята вибірка обсягом n = 5):

б) Вибіркове лінійне рівняння регресії

Вибіркове лінійне рівняння регресії У на Х має вид:

                            (5.7)

Вибіркове лінійне рівняння регресії Х на У має вид:

                             (5.8)

У цих рівняннях використовуються наступні оцінки (див. формули (5.6)):

 дисперсія ознаки Х;

 дисперсія ознаки У;

де        – вибіркова середня ознаки Х;

– вибіркова середня ознаки У;

– вибірковий середній квадрат ознаки Х;

– вибірковий середній квадрат ознаки У;

– вибірковий середній додаток ознак Х і У;

 – вибіркове СКВ ознаки У;

 – вибіркове СКВ ознаки У;

rв – вибірковий коефіцієнт кореляції, що обчислюється за формулою:

  .                              (5.9)

Якщо параметри рівняння були розраховані по рівнянню регресії з кутовим коефіцієнтом, то вибірковий коефіцієнт кореляції обчислюється за формулою:

.                                        (5.10)

Вибірковий коефіцієнт кореляції rв є відносний показник, що характеризує силу зв’язку між признаками.          При будь-яких розрахунках він знаходиться в межах від –1 до +1.

5.5    Перевірка коефіцієнта кореляції на значущість

Нехай ознаки Х и У розподілені нормально. З генеральної сукупності взята вибірка обсягу n і по ній знайдено вибірковий коефіцієнт кореляції rв . Треба перевірити гіпотезу про значущість генерального коефіцієнта кореляції rг .

Висуваються гіпотези:

Основна гіпотеза            Н0 : rг = 0

Конкуруюча гіпотеза     Н1 : rг ≠ 0

Для перевірки гіпотези H 0 обчислюється спостережуване значення критерію:

.

Цей критерій є випадковою величиною, що підкоряється закону розподілу Стьюдента з k = n – 2 степенями вільності. Критична область є двосторонньою. За таблицею критичних точок розподілу Стьюдента (Додаток Ж) визначається критичне значення критерію при обраному рівні значущості помилки a і числі степенів вільності k :

tкр = tкр (α; k).

Якщо Тсп > tкр , то нульова гіпотеза відкидається. Це означає, що коефіцієнт кореляції значимо відрізняється від нуля, і ознаки Х та У корельовані. У цьому випадку можна казати, що ознаки Х та У зв’язані лінейною залежністю.

Якщо Тсп < tкр , то нульова гіпотеза не відкидається. Це означає, що коефіцієнт кореляції незначимо відрізняється від нуля, і ознаки Х та У некорельовані. Прийняття гіпотези Н0 : rг = 0 зовсім не означає, що ознаки Х та У незалежні один від одного. Якщо rг = 0, то звідси випливає тільки те, що ознаки Х та У не зв’язані лінійною залежністю. Отож, вони можуть пов’язані якимсь нелінійним зв’язком.

5.6    Теоретичний коефіцієнт детермінації і теоретичне кореляційне відношення

Теоретичний коефіцієнт детермінації і теоретичне кореляційне відношення визначаються по рівнянню регресії :

,                         (5.11)

де       Dпоясн.рівн.регрес. – дисперсія результативної ознаки У, пояснена рівнянням регресії;

Dзаг – загальна дисперсія результативної ознаки У, які обчислюються за формулами:

                     (5.12)

де       n – обсяг вибірки;

yi – індивідуальні значення результативної ознаки У ;

 – середнє значення ознаки У;

yiтеор – індивідуальні значення результативної ознаки У, розраховані по рівнянню регресії: yiтеор=f(xi).

Якщо рівняння регресії лінійне, то yiтеор=kxi + b, а кореляційне відношення збігається з модулем коефіцієнта кореляції η = êrв ê, коефіцієнт детермінації дорівнює R2= rв2 .

Коефіцієнт детермінації характеризує тісноту зв'язку між ознаками. У кількісній формі він указує, яка частина загальної дисперсії результативної ознаки У пояснюється варіаціями ознаки Х. Наприклад, якщо побудована статистична модель, що описує залежність обсягу добового видобутку вугілля (У) від потужності пласта (Х) і коефіцієнт детермінації дорівнює R2 = 0,56, то це значить, що по обраній моделі 56% дисперсії обсягу добового видобутку вугілля пояснюється варіацією потужності пласта.

Для одержання висновків про практичну значимість синтезованих моделей використовуються якісні оцінки, що даються на основі шкали Чедока [8].

R2

0,1 – 0,3

0,3 – 0,5

0,5 – 0,7

0,7 – 0,9

0,9 – 0,99

Характеристика сили зв'язку

слабка

помірна

помітна

висока

дуже висока

5.7 Нелінійна кореляція

Якщо графік регресії – крива лінія, то кореляцію називають криволінійною. Параметри рівняння криволінійної регресії  знаходять за методом найменших квадратів, а в деяких випадках зводять задачу до лінійної регресії шляхом впровадження відповідних замін. Нижче приводяться найбільш типові випадки криволінійної регресії й формули розрахунків її параметрів:

а)   параболічна залежність .

Параметри регресії a, b, c знаходяться з рішення системи:

              (5.13)

б)   гіперболічна залежність .

Робимо заміну  і зводимо задачу до лінійної регресії . Параметри k і b знаходяться за формулами лінійної регресії (з точністю до позначень):

 ,

.                       (5.14)

де       .

в)   логарифмічна залежність .

Робимо заміну  і зводимо задачу до лінійної регресії .

Далі використовують формули (5.14).

д)   експоненціальна залежність .

Робимо заміну z = ex і зводимо задачу до лінійної регресії .

Далі використовують формули (5.14).

е)   степенева залежність