Контрольная работа № 2. Отчет по задачам: «Построение уравнения множественной регрессии» и «Многокритериальная оптимизация», страница 3

1.2.2.Пункт 2.

Пользуясь надстройкой «Анализ данных - Регрессия» (рис. 1, 2) построим уравнение регрессии.

Рис. 1. Диалоговое окно надстройки  «Анализ данных - Регрессия»

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

0,415594163

1,2468366

0,333318868

0,740000403

х1

0,586531

0,049491234

11,85120996

1,09849E-17

х2

-0,126707241

0,0739526

-1,713357487

0,091564078

х3

0,042687251

0,120110929

0,355398562

0,723478203

х4

-0,508397045

0,758251162

-0,670486338

0,504998371

х5

-0,329652029

0,046884441

-7,031160512

1,76356E-09

Рис. 2. Фрагмент отчета регрессии по пяти факторам

Получили уравнение:

.

Очевидно, что полученное уравнение противоречит практике, коэффициент при  имеет знак «минус», то есть увеличение жилой площади уменьшает общую стоимость квартиры. Проанализируем межфакторную корреляцию. Для получения матрицы парных линейных коэффициентов корреляции воспользуемся надстройкой «Анализ данных – Корреляция» (рис. 3).

х1

х2

х3

х4

х5

у

х1

1

х2

0,954780137

1

х3

0,580766011

0,469468991

1

х4

0,135294164

0,071982075

-0,016492956

1

х5

0,07778891

0,063411934

-0,076093303

0,066258672

1

у

0,968289078

0,913325016

0,603596516

0,113316307

-0,088619856

1

 Рис. 3. Корреляционная матрица

Значения коэффициентов линейной парной корреляции высоки , что говорит о взаимозависимости этих факторов, т. е. о мультиколлинеарности.

Полученное уравнение множественной регрессии, включающее весь имеющийся набор факторов, не адекватно. Возможная причина – мультиколлинеарность факторов, включенных в модель. Чтобы исключить взаимозависимые факторы, построим модель методом последовательного включения факторов.

1.2.3.Пункт 3.

Построение модели методом включения – это пошаговый отбор переменных.

На первом шаге (k=1) по наибольшему значению коэффициента корреляции с у найдем наиболее информативную переменную – это .

Так как при k=1 величина  совпадает с квадратом обычного (парного) коэффициента корреляции  из матрицы корреляций находим наибольший коэффициент детерминации для набора однофакторных регрессионных моделей:

Аналогичный результат можно получить последовательно строя уравнения регрессии для зависимостей  с помощью табличной функции ЛИНЕЙН (изв. зн. Y, изв. зн. X, константа, статистика) она возвращает массив значений описывающих кривую вида:

                                                (1)

Введем формулу в произвольный массив на листе MS Excel =ЛИНЕЙН(F3:F71;A3:A71;1;1). Поскольку функция возвращает массив, она должна задаваться в виде формулы массива при помощи комбинации клавиш <Ctrl> + <Shift> + <Enter>.

В результате получили полную статистическую информацию, применяя табличную функцию ЛИНЕЙН последовательно для каждого столбца (рис.4):

линейная зависимость  ух1

0,50860698

-0,93424308

0,016032039

1,096425577

0,937583738

3,025150748

1006,438206

67

9210,456528

613,1529824

линейная зависимость ух2

0,790259145

4,040049625

0,04304751

1,628275835

0,834162585

4,931049978

337,0101558

67

8194,4875

1629,12201

линейная зависимость ух3

2,327414491

6,512279261

0,37558297

4,254585308

0,364328754

9,654158561

38,40039441

67

3579,023417

6244,586093

линейная зависимость ух4

3,567175294

28,9275541

3,821098953

3,472971081

0,012840585

12,03072473

0,871509918

67

126,1408967

9697,468614

линейная зависимость ух5

-0,177824793

32,93099115

0,244180948

2,052669732

0,007853479

12,06107592

0,530348166

67

77,14951023

9746,46