Аналіз даних: Навчальний посібник (Розділи: Регресійний аналіз. Дисперсійний аналіз. Ранговий аналіз), страница 10

,

тут  – фіктивна змінна, яка введена для зручності;

U – відображає вплив на Y інших факторів, помилки вимірювань, помилки вибору моделі.

Виникають такі задачі:

1   Знайти за даними спостережень вибіркове рівняння зв'язку

,

тобто знайти коефіцієнти регресії.

2   Оцінити тісноту зв'язку між Y і  Xi, , а також між Xi та  Xj .

3   Оцінити тісноту зв'язку між Y і  Xi при постійних Xj ().

Перша задача розв’язується методом найменших квадратів. Критерієм вибору оцінок  є умова мінімуму суми квадратів відхилень .

.

Умовою досягнення екстремуму є рівність нулю часткових похідних

,     ,  ... , .

Одержуємо систему  m+1 лінійних рівнянь із m+1 невідомими:

.    (7.16)

Якщо n> m-1 і визначник системи  знаходимо єдиний розв’язок системи .

7.11.1 Матричний спосіб оцінки параметрів множинної регресії

Розглянемо вектори-стовпці

,  ,

і матрицю  Х розмірності n (m+1):

.

Тоді відповідно до правил множення й додавання матриць матричний запис системи рівнянь (7.16) набуває вигляду

.                                       

де  – транспонована матриця Х. Добуток матриць ХТХ дорівнює

.

Матриця ХТХ  має розмірність (m+1) (m+1).

Якщо n> m-1 і ранг матриці ХТХ дорівнює m+1 , система має єдиний розв’язок 

.

7.11.2 Перевірка значущості коефіцієнтів регресії

Для цього застосовуємо  t–критерій Стьюдента, за допомогою якого перевіряють, чи значуще ai відрізняється від нуля. Висуваємо гіпотези:

Н0: ;      Н1: ;

Обчислюємо критеріальне значення

.

Обчислюємо критичне значення  

,

де k – кількість параметрів регресії. Якщо  – ai  статистично незначуще відрізняється від нуля, а якщо  –  ai  статистично значуще.

Якщо виникає ситуація, що ai  статистично незначуще відрізняється від нуля, то це означає, що вплив i-го фактора на досліджувану змінну нестабільний.

7.11.3 Перевірка якості моделі. Скоригований коефіцієнт детермінації

Якість моделі характеризується коефіцієнтом детермінації

             .       

Коефіцієнт детермінації як критерій вибору функції регресії має суттєвий недолік, що полягає в тому, що з додаванням до регресії нових змінних він ніколи не зменшується, а, навпаки, збільшується. Це означає, що рівняння з більшим числом регресорів буде давати кращі результати, ніж з відносно малою їх кількістю. Але з додаванням нового фактора губиться один ступінь вільності, що не завжди бажано. Наприклад, довірчі інтервали будуть тим менші, чим більше число ступенів вільності L= n-m-1. При застосуванні критеріїв Стьюдента  й Фішера також бажано мати можливо більше число ступенів вільності.

Скоригований коефіцієнт детермінації з виправленням на число ступенів вільності визначається

.

Для перевірки адекватності моделі розраховуємо критеріальне значення

та критичне значення

,

де , ,

 k – кількість параметрів моделі; n – кількість спостережень. Значення Fкр обчислюємо за допомогою функції FРАСПОБР(α; k-1; n-k).  Якщо Fp>Fkp  –  модель адекватна.

7.11.4 Парна й часткова кореляції

Вибіркові коефіцієнти парної кореляції обчислюються за формулою

Виникає питання: спостережувана кореляція змінної (Y) і якої-небудь незалежної змінної (Х1) обумовлена чистою залежністю між ними або інша змінна (Х2) впливає на них, що стає причиною спостережуваної кореляції між Y і X1. Таким чином, ми приходимо до поняття часткової кореляції між Y і X1, коли вплив X2 усунуто.

Часткові коефіцієнти кореляції обчислюються у такий спосіб:

.

В економетриці часткові коефіцієнти кореляції звичайно не мають самостійного значення. Їх використовують на стадії формування моделі. Так, будуючи багатофакторну модель, на першому кроці визначається рівняння регресії з повним набором факторів, і розраховується матриця часткових коефіцієнтів кореляції. На другому кроці відбирається фактор з найменшої й несуттєвої за - критерієм Стьюдента величиною показника часткової кореляції. Виключивши його з моделі, будується нове рівняння регресії. Процедура триває до того часу, поки не виявиться, що всі часткові коефіцієнти кореляції істотно відрізняються від нуля. Якщо виключено несуттєвий фактор, то множинні коефіцієнти детермінації на двох суміжних кроках побудови регресійної моделі майже не відрізняються один від одного, , де m – число факторів.