 
											 
											 
											 
											Отчет9
Для того, чтобы проверить исследовательскую гипотезу: «влияет ли возрастной состав района на оценку будущего жителями районов» нужно построить модель простой линейной регрессии, где зависимый признак – доля людей, негативно оценивающих свое будущее, а независимый – доля людей старше 45 лет.
Первым шагом производим агрегирование исходного файла. Получаем две новые переменные с помощью функции Aggregate.
Следующим шагом рассчитываем коэффициент корреляции между зависимым и независимым признаками.
Коэффициент корреляции
| доля людей старше 45 лет | доля людей, негативно оценивающих свое будущее | ||
| доля людей старше 45 лет | Pearson Correlation | 1 | 0,512054 | 
| Sig. (2-tailed) | 1,6E-79 | ||
| N | 1175 | 1175 | |
| доля людей, негативно оценивающих свое будущее | Pearson Correlation | 0,512054** | 1 | 
| Sig. (2-tailed) | 0,000 | ||
| N | 1175 | 1175 | |
| ** | Correlation is significant at the 0.01 level (2-tailed). | ||
В 99% доверительном интервале можно говорить о том, что целесообразно проводить дальнейший анализ, так как 0,000<0,05, то есть эти признаки зависят друг от друга.
Для построения модели линейной регрессии используем функцию Linear Regression.
Анализ полученных данных проводим в два этапа. Первый этап – анализ качества модели:
| Model Summary(b) | ||||
| Model | R | R Square | Adjusted R Square | Std. Error of the Estimate | 
| 1 | 0,512054 | 0,2622 | 0,261571 | 5,966052 | 
| a | Predictors: (Constant), доля людей старше 45 лет | |||
| b | Dependent Variable: доля людей, негативно оценивающих свое будущее | |||
1. Коэффициент детерминации показывает долю дисперсии зависимого признака, объясненную независимым признаком. R Square=0,26, то есть 26% дисперсий признака «доля людей негативно, оценивающих свое будущее» можно объяснить признаком «доля людей старше 45 лет»
| ANOVA(b) | ||||||
| Model | Sum of Squares | df | Mean Square | F | Sig. | |
| 1 | Regression | 14837,66 | 1 | 14837,66 | 416,8612 | 0,00 | 
| Residual | 41751,5 | 1173 | 35,59377 | |||
| Total | 56589,16 | 1174 | ||||
| a | Predictors: (Constant), доля людей старше 45 лет | |||||
| b | Dependent Variable: доля людей, негативно оценивающих свое будущее | |||||
| Coefficients(a) | ||||||
| Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | ||
| B | Std. Error | Beta | ||||
| 1 | (Constant) | -1,19326 | 2,191698 | -0,54444 | 0,58624 | |
| доля людей старше 45 лет | 0,852247 | 0,041742 | 0,512054 | 20,41718 | 0,000 | |
| a | Dependent Variable: доля людей, негативно оценивающих свое будущее | |||||
2. Проверка равенства коэффициентов уравнения нулю.
Коэффициентом в пользуемся для проверки качества модели, так как в<0,05 принимаем альтернативную гипотезу о том, что от возраста зависит оценка будущего. Так же это говорит о прямой линейной зависимости между признаками, то есть если в районе увеличится доля людей старше 45 лет на 0,1, то доля людей негативно оценивающих свое будущее увеличится на 0,852.
В 50% случаев на долю людей, негативно оценивающих свое будущее, влияют люди в возрасте от 45 лет
3. Анализ остатков
| Residuals Statistics(a) | |||||
| Minimum | Maximum | Mean | Std. Deviation | N | |
| Predicted Value | 38,86964 | 52,17979 | 43,41372 | 3,555074 | 1175 | 
| Residual | -9,47146 | 13,12819 | 0,000 | 5,96351 | 1175 | 
| Std. Predicted Value | -1,27819 | 2,465792 | 0,000 | 1 | 1175 | 
| Std. Residual | -1,58756 | 2,200481 | 0,000 | 0,999574 | 1175 | 
| a | Dependent Variable: доля людей, негативно оценивающих свое будущее | ||||
Переменная «остаток» должна быть нормально распределена. Нормальность распределения проверяем тестом Колмогорова-Смирнова
| One-Sample Kolmogorov-Smirnov Test | ||
| Unstandardized Residual | ||
| N | 1175 | |
| Normal Parameters(a,b) | Mean | 0,000 | 
| Std. Deviation | 5,96351 | |
| Most Extreme Differences | Absolute | 0,190808 | 
| Positive | 0,190808 | |
| Negative | -0,08933 | |
| Kolmogorov-Smirnov Z | 6,54057 | |
| Asymp. Sig. (2-tailed) | 0,000 | |
| a | Test distribution is Normal. | |
| b | Calculated from data. | |
Так как 0,000<0,005 можно сделать вывод о том, что остатки нормально распределены. Можно сделать выводом о том, что получившееся модель достаточно качественная и можно перейти ко второму шагу – интерпритация полученных результатов:
Модель можно записать в виде формулы:
У=a+bx, где х-доля людей старше 45 лет (независимый признак), у- доля людей, негативно оценивающих свое будущее (зависимый признак).
У=-1,19+0,852*48,3=39,96
При увеличении доли людей старше 45 лет на 0,01(1 год) в Дзержинском районе, доля людей негативно оценивающих свое будущее увеличится на 0,852 и будет равна 39,96

Эффект гетероскедастичности отсутствует, мы видим примерно одинаковое прилегание объектов к прямой. Все районы, за исключением Заельцовского района прилегают к прямой равномерно.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.