Основи кореляційно-регресійного аналізу: Методичні вказівки для вивчення теми курсів “Теорія ймовірностей та математична статистика”, “Економетріка” і “Математика для економістів”, страница 11

Тимчасові моделі, як правило, не претендують на пояснення явища, їхня роль – чисто описова. З’ясувавши, що собівартість у середньому зростала на 2,5 карбованці на рік, необхідно залучити додаткові дані для пояснення цього ефекту. У всякому разі, вже ясно, що зростання собівартості було наслідком зниження продуктивності праці – це і є справжня причина, а зовсім не аргумент t.

Таким чином, на прикладі тих самих даних ми продемонстрували особливості обробки малої вибірки, великої вибірки і великої вибірки, дані якої природним чином розбиті на декілька характерних груп. У нашому прикладі всі ці групи були рівнонасиченими (з однаковою частотою k = 12). Для нерівнонасичених груп потрібно всі середні замінити на “середні зважені” типу . З рештою розрахунок не ускладниться.

Проблема форми зв'язку

Для успіху застосування регресійного аналізу фахівець має прийняти два відповідальних рішення – вказати результативну ознаку та обрати форму зв’язку. Ця форма зв’язку являє собою формулу з декількома параметрами, які потрібно оцінити так, щоб модель найкращим чином описувала емпіричні дані (тому процес оцінки параметрів іноді називають “підгонкою моделі під дані”).

Лінійна багатовимірна модель  y = a0 + ax1 + ax2 + e   є досить загальною і допускає багато нелінійних форм зв’язків. Наприклад, розглянемо застосування МНК до проблеми оцінки параметрів квадратичної моделі

y = a0 + ax + ax2 + e .

Цю нелінійну модель можна формально звести до попередньої такими перепозначеннями змінних:  x1 = x,  x2 = x2. Виявляється, змінні-аргументи  x1 , x2  не є “незалежними змінними” в звичайному розумінні, вони можуть бути скільки завгодно пов’язаними між собою (аби визначник системи нормальних рівнянь не дорівнював нулю); тому для таких змінних введено назву: “регресори”. Надалі, одному фізичному показнику x можуть відповідати декілька членів математичної моделі (для опису нелінійністі).

Для МНК важливо тільки, щоб форма зв’язку була лінійною відносно параметрів  a0 , a1 , a2 .  Форму зв’язку ми вибираємо, дивлячись на розташування емпіричних точок на графіку.

Для двохпараметричних моделей, що лінійно залежать від параметрів або можуть бути приведені до такої форми будь–якими перетвореннями змінних, є графічний спосіб перевірки їх здатності для опису даних (перевірки адекватності моделі). Нехай Y = F (x, y)  і  X = f (x, y) – такі функціональні перетворення, після яких форма зв’язку формально стає лінійною

Y = a + b X .

Помітимо, що графіком лінійної залежності (у координатах X,Y) є пряма, а пряму ми чисто візуально упевнено виділяємо серед усього різноманіття кривих ліній. Звідси випливає, що якщо емпіричні точки в перетворених координатах не групуються навколо деякої прямої, то прийнята форма зв’язку повинна бути відхилена (треба підбирати іншу, більш придатну). На сучасних комп’ютерах графіки будуються і перетворюються легко, тому при використанні комп’ютера пропонований спосіб ідентифікації моделей стає дуже ефективним.

Розглянемо простий приклад. Нижче наведені виміри швидкості різання сірого чавуна (y, м /хв) у залежності від швидкості подачі (x, мм /об):

x

0,10

0,15

0,20

0,25

0,30

0,35

0,40

y

102,2

87,2

77,8

70,8

66,1

62,0

58,8

На рис. 12 а нанесені емпіричні точки у вихідних координатах (x, y), звідки відразу видно, що вони явно не групуються навколо будь–якої прямої. Лінійна форма зв’язку повинна бути відхилена. По виду розташування точок на графіку була висунута гіпотеза про степеневу форму зв’язку

y = A xb  ,

яка після логарифмування приймає лінійний вид (щодо параметрів)

log(y) = a + b log(x) .