1.2.2.Пункт 2.
Пользуясь надстройкой «Анализ данных - Регрессия» (рис. 1, 2) построим уравнение регрессии.
Рис. 1. Диалоговое окно надстройки «Анализ данных - Регрессия»
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
|
Y-пересечение |
0,415594163 |
1,2468366 |
0,333318868 |
0,740000403 |
х1 |
0,586531 |
0,049491234 |
11,85120996 |
1,09849E-17 |
х2 |
-0,126707241 |
0,0739526 |
-1,713357487 |
0,091564078 |
х3 |
0,042687251 |
0,120110929 |
0,355398562 |
0,723478203 |
х4 |
-0,508397045 |
0,758251162 |
-0,670486338 |
0,504998371 |
х5 |
-0,329652029 |
0,046884441 |
-7,031160512 |
1,76356E-09 |
Рис. 2. Фрагмент отчета регрессии по пяти факторам
Получили уравнение:
.
Очевидно, что полученное уравнение противоречит практике, коэффициент при имеет знак «минус», то есть увеличение жилой площади уменьшает общую стоимость квартиры. Проанализируем межфакторную корреляцию. Для получения матрицы парных линейных коэффициентов корреляции воспользуемся надстройкой «Анализ данных – Корреляция» (рис. 3).
х1 |
х2 |
х3 |
х4 |
х5 |
у |
|
х1 |
1 |
|||||
х2 |
0,954780137 |
1 |
||||
х3 |
0,580766011 |
0,469468991 |
1 |
|||
х4 |
0,135294164 |
0,071982075 |
-0,016492956 |
1 |
||
х5 |
0,07778891 |
0,063411934 |
-0,076093303 |
0,066258672 |
1 |
|
у |
0,968289078 |
0,913325016 |
0,603596516 |
0,113316307 |
-0,088619856 |
1 |
Рис. 3. Корреляционная матрица
Значения коэффициентов линейной парной корреляции высоки , что говорит о взаимозависимости этих факторов, т. е. о мультиколлинеарности.
Полученное уравнение множественной регрессии, включающее весь имеющийся набор факторов, не адекватно. Возможная причина – мультиколлинеарность факторов, включенных в модель. Чтобы исключить взаимозависимые факторы, построим модель методом последовательного включения факторов.
1.2.3.Пункт 3.
Построение модели методом включения – это пошаговый отбор переменных.
На первом шаге (k=1) по наибольшему значению коэффициента корреляции с у найдем наиболее информативную переменную – это .
Так как при k=1 величина совпадает с квадратом обычного (парного) коэффициента корреляции из матрицы корреляций находим наибольший коэффициент детерминации для набора однофакторных регрессионных моделей:
Аналогичный результат можно получить последовательно строя уравнения регрессии для зависимостей с помощью табличной функции ЛИНЕЙН (изв. зн. Y, изв. зн. X, константа, статистика) она возвращает массив значений описывающих кривую вида:
(1)
Введем формулу в произвольный массив на листе MS Excel =ЛИНЕЙН(F3:F71;A3:A71;1;1). Поскольку функция возвращает массив, она должна задаваться в виде формулы массива при помощи комбинации клавиш <Ctrl> + <Shift> + <Enter>.
В результате получили полную статистическую информацию, применяя табличную функцию ЛИНЕЙН последовательно для каждого столбца (рис.4):
линейная зависимость ух1 |
|
0,50860698 |
-0,93424308 |
0,016032039 |
1,096425577 |
0,937583738 |
3,025150748 |
1006,438206 |
67 |
9210,456528 |
613,1529824 |
линейная зависимость ух2 |
|
0,790259145 |
4,040049625 |
0,04304751 |
1,628275835 |
0,834162585 |
4,931049978 |
337,0101558 |
67 |
8194,4875 |
1629,12201 |
линейная зависимость ух3 |
|
2,327414491 |
6,512279261 |
0,37558297 |
4,254585308 |
0,364328754 |
9,654158561 |
38,40039441 |
67 |
3579,023417 |
6244,586093 |
линейная зависимость ух4 |
|
3,567175294 |
28,9275541 |
3,821098953 |
3,472971081 |
0,012840585 |
12,03072473 |
0,871509918 |
67 |
126,1408967 |
9697,468614 |
линейная зависимость ух5 |
|
-0,177824793 |
32,93099115 |
0,244180948 |
2,052669732 |
0,007853479 |
12,06107592 |
0,530348166 |
67 |
77,14951023 |
9746,46 |
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.