Основи кореляційно-регресійного аналізу: Методичні вказівки для вивчення теми курсів “Теорія ймовірностей та математична статистика”, “Економетріка” і “Математика для економістів”, страница 9

          Рис. 8  Регресія y по x

       Рис. 9  Регресія x по y

––○––

Емпірична лінія yx

––○––

Емпірична лінія xy

▬▬▬

Теоретична лінія

▬▬▬

Теоретична лінія

- - - - -

Межі 95%-вої смуги

- - - - -

Межі 95%-вої смуги

Обробка даних малої вибірки

Мета цього розділу – допомогти студенту засвоїти методику обробки даних малої вибірки, або коли спостереження наведені в декількох повтореннях, але є невелика кількість різноманітних варіантів.

Продовжуємо аналіз прикладу, що розбирався послідовно протягом попередніх чотирьох розділів. Суто формально ми зробили обробку наведених вище даних (див. табл. 1) і переконалися в існуванні тісного і значущого кореляційного зв'язку між обсягами прохідницьких робіт і собівартістю 1 т вугілля, що добувається, причому більш тісною виявилася спряжена  залежність  .

Як зазначалося вище, кореляційний аналіз не вирішує питання ані про природу досліджуваних зв’язків, ані про їхній напрямок – це справа фахівців. Але, на думку фахівців, між досліджуваними показниками взагалі не повинно бути ніяких зв’язків, тому що всі підготовчі роботи виконуються за рахунок капіталовкладень, і ці витрати не повинні враховуватися при розрахунку собівартості.

Як же пояснити отримані нами результати? (це є приклад змістовного аналізу, коли формальні статистичні процедури чергуються з неформальними висновками фахівців). Тут потрібне більш глибоке вивчення проблеми з урахуванням інших факторів, зокрема, мінливості даних за часом. Розглядаючи рис. 1  (продубльований  нижче на рис. 10), зауважимо, що залежності між x і y за кожний конкретний рік дійсно немає, проте з року в рік зростала собівартість вугілля, а в останні два роки істотно зростали також і обсяги прохідницьких робіт.

Рис. 10. Кореляційне поле

В останньому рядку табл. 1 наведені усереднені за кожний рік значення x і y.  Ці середньорічні дані виписані в табл. 8 (перші 4 стовпчика). Якщо ми маємо у своєму розпорядженні тільки ці середньорічні значення, то маємо справу з малої (n=5) вибіркою. Насправді в нас є 12–разова повторність кожного показника x і y, але в табл. 8 наведено не всі спостереження, а лише середні за групами (за кожний рік); цілком же вихідні дані містяться в табл. 1. Для того, щоб переходячи від табл. 1 до табл. 8 не втратити істотну інформацію про мінливість даних, необхідно крім середніх по групах обчислити і зберегти суми квадратів відхилень у кожній групі.

Таблиця 8

Обробка середньорічних даних

n

t

x

y

T

T2

xT

yT

x2

y2

1

1981

6,8

22,45

-2

4

-13,6

-44,90

46,24

504,00

2

1982

6,6

26,69

-1

1

-6,6

-26,69

43,56

712,36

3

1983

6,4

26,64

0

0

0

0

40,96

709,69

4

1984

7,9

28,70

1

1

7,9

28,70

62,41

823,69

5

1985

9,5

33,91

2

4

19,0

67,82

90,25

1149,89

Середні

1983

7,44

27,68

0

2

1,34

4,99

56,68

779,93

Розглянемо спочатку особливості обробки малої вибірки, вважаючи, що в табл. 8 наведені всі дані. Оскільки цих даних небагато (усього п’ять), жодних угруповань не потрібно. Іноді можна обійтися і без переходу до умовних одиниць, зокрема, у даному прикладі залишимо незмінними значення змінних x і y. Проте, щоб не мати справи з великими числами, із усіх значень  t  віднімемо середнє: T = t - 1983 (бажано так робити з усіма змінними; замість точних середніх можна віднімати найбільш близькі до середнього значення з таблиці, зокрема, зручно прийняти X = x – 7,9  і  Y = y – 28,7).