Аналіз даних: Навчальний посібник (Розділи: Регресійний аналіз. Дисперсійний аналіз. Ранговий аналіз), страница 18

Q – загальна сума квадратів відхилень спостережуваних значень  від загального середнього .

Знаючи Q, Q1 , Q2, можна оцінити відповідні дисперсії, тобто загальну, міжгрупову (факторну) і внутрішньогрупову (залишкову):

;     ;   ;

.

Звичайно розраховують Q і Q1, а потім обчислюють

Q2 = Q-Q1.

Для того, щоб перевірити при заданому рівні значущості α гіпотезу про рівність середніх декількох (m>2) нормальних сукупностей з невідомими, але однаковими дисперсіями, досить перевірити за критерієм Фішера гіпотезу про рівність факторної й залишкової дисперсії S1=S2 .

Якщо вплив всіх рівнів фактора g однаковий,  то S1 і S2 – оцінки загальної дисперсії, тому відрізняються незначуще.

 Гіпотези:

Н0 : S12 = S22;             H1 : S12 > S22.

Розраховуємо  Fр =  , що має розподіл Фішера з k1= m-1 і k2 = m(n-1) ступенями вільності.

При заданому рівні значення aобчислюють критичне значення Fкр =F(a; k1; k2).

Якщо Fр > Fкр, то  Н0  відкидається й робиться висновок про істотний вплив фактора γ.

Якщо Fp  < Fкр – немає підстави відкидати гіпотезу Н0 і вважають, що вплив фактора γ несуттєвий.

Для більш повного розуміння, як будується F-статистика для перевірки гіпотези H0 , запишемо

Порівнюючи міжгрупову та залишкову дисперсії, за величиною їх відношення судять, наскільки сильно проявляється вплив фактора.

Однофакторний аналіз зручно подавати у вигляді таблиці.

Компоненти дисперсії

Сума квадратів, (SS)

Число ступенів  вільності, (DS)

Дисперсія (MS)

Міжгрупова 

m-1

Внутрішньо- групова

m(n-1)

Загальна

mn-1

 

Приклад. Необхідно виявити, чи впливає відстань від центра міста на ступінь заповнюваності готелів. Нехай введені 3 рівні відстаней від центра міста: 1) до 3 км, 2) від 3 до 5 км і 3) понад 5 км. Дані заповнюваності представлені в таблиці.

Відстань

Заповнюваність

До 3 км

92

98

89

97

90

94

Від 3 до 5 км

90

86

84

91

83

82

Понад 5 км

87

79

74

85

73

77

Розв’язання.

Число вибірок m=3, число досліджених готелів для кожної вибірки  n=6, загальна кількість спостережень  mn=18.

Обчислимо середні значення для кожної вибірки  і загальне середнє :

 =93,333     = 86    =79,167   =86, 167.

Після чого знайдемо значення Q, Q1, Q2:

=904,5,  =602,33,

Q2 = Q – Q1=302,167.

Обчислюємо міжгрупову дисперсію S1 та залишкову S2:

=   =301,167,

==20,444.

Висуваємо гіпотези:

Н0 : S12 = S22;             H1 : S12 > S22.

Розраховуємо  Fр = =14,95, та при заданому рівні значення a=0,05  обчислюємо критичне значення Fкр =FРАСПОБР(0,05; 3-1; 3×(6-1))= 3,682.

Оскільки Fр > Fкр, то гіпотезу Н0  відкидаємо і робимо висновок про істотний вплив фактора, тобто фактор відстані від центра міста значуще впливає на ефективність заповнення готелів.

В Excel  для проведення дисперсійного аналізу можна скористатися  Сервис –Анализ данных Однофакторный дисперсионныйанализ.

1  Досліджувані дані введіть у робочу таблицю Excel (діапазон А1:F3).

2  Виберіть пункт меню СервисАнализ данных. У діалоговому вікні Анализ данных у списку Инструменты анализа виберіть процедуру Однофакторный дисперсионныйанализ. Натисніть кнопку ОК. На екрані з’явиться вікно

3  В  діалоговому вікні Однофакторный дисперсионный анализ у полі Входной интервал задайте А1:F3.

4  У розділі Группирование перемикач встановіть в положення по строкам.

5  Зазначте Выходной интервал і натисніть Ок.

У результаті буде отримана така таблиця: