Министерство образования и науки Российской Федерации
Новосибирский государственный Технический Университет
Кафедра экономической информатики
Лабораторная работа № 3
по дисциплине «Эконометрика»
на тему «Разведывательный анализ данных и регрессионный анализ средствами пакета STATISTICA»
Вариант № 2
Факультет бизнеса
Группа: ФБИ-41
Выполнили: Яцутко А.Ю.
Терпугов А.В.
Преподаватель: Наумов А.А.
Новосибирск, 2008
Цель работы:
- Получить практические навыки проведения анализа данных с использованием модулей Basic Statistics (Основные статистики), Distribution Fitting (Настройка распределения) и Multiple Regression (Множественная регрессия) пакета STATISTICA.
- Создать подробный электронный отчет о работе с описанием анализируемых данных, выполняемых статистических процедур, полученных результатов, включающий графики и таблицы. Особое внимание уделить статистическому обоснованию выводов.
Последовательность выполнения работы
1. Подготовили исходные данные для проведения статистического анализа в системе Statistica.
1.1. Создали новую электронную таблицу для ввода данных и ввели данные.
1.2. Задали заголовок таблицы и дополнительную информацию о файле.
1.3. Задали имена переменных в соответствии с исходными данными, задали формат переменных в соответствии с их типами.
Результат представлен на рисунке 1.

Рисунок 1. Исходные данные
2. Для выбранных данных вычислили все основные описательные статистики: математическое ожидание, дисперсию, коэффициенты асимметрии и эксцесса, медиану, верхнюю и нижнюю квартили и др. Описательные статистики для данных представлены в таблице 1. Обозначения:
Valid N - объем выборки;
Mean - среднее;
Mode - мода;
Median -медиана;
Standard Deviation - среднеквадратическое отклонение;
Variance - дисперсия;
Standard error of mean - стандартная ошибка среднего;
95% confidence limits of mean - 95 %-ный доверительный интервал для среднего;
Minimum and maximum - минимальное и максимальное значения;
Lower and upper quartiles -нижняя и верхняя квартили;
Range - размах;
Quartiles range - интерквартильный размах;
Skewness - асимметрия;
Kurtosis - эксцесс;
Standard error of skewness - стандартная ошибка асимметрии;
Standard error of kurtosis - стандартная ошибка эксцесса;
Percentile boundaries - процентили.
Таблица 1 – Описательные статистики
| Descriptive Statistics (new1.sta) | |||||||||||
| Confid. | Confid. | Lower | Upper | Quartile | |||||||
| Valid N | Mean | -95,00% | 95,00% | Median | Min | Max | Quartile | Quartile | Range | Variance | |
| ВОЗРАСТ | 80 | 27,35 | 26,5348 | 28,1652 | 26 | 21 | 37 | 25 | 29,5 | 4,5 | 13,42 | 
| ТЕХ_ЛИТ | 80 | 1,0456 | 0,97526 | 1,11599 | 0,91 | 0,69 | 1,79 | 0,75 | 1,335 | 0,585 | 0,1 | 
| ЕСТ_НАУЧ | 80 | 0,4025 | 0,34224 | 0,46276 | 0,32 | 0,05 | 0,9 | 0,14 | 0,665 | 0,525 | 0,0733 | 
| ХУД_ЛИТ | 80 | 0,1536 | 0,14569 | 0,16156 | 0,16 | 0,08 | 0,32 | 0,125 | 0,17 | 0,045 | 0,0013 | 
| ПОЛ | 80 | 100,7 | 100,597 | 100,803 | 101 | 100 | 101 | 100 | 101 | 1 | 0,2127 | 
| АКТИВН | 80 | 100,58 | 100,448 | 100,702 | 101 | 100 | 102 | 100 | 101 | 1 | 0,3234 | 
| Standard | Std.Err. | Std.Err. | ||||
| Std.Dev. | Error | Skewness | Skewness | Kurtosis | Kurtosis | |
| ВОЗРАСТ | 3,663366 | 0,409577 | 0,759839 | 0,268909 | 0,096085 | 0,531786 | 
| ТЕХ_ЛИТ | 0,316203 | 0,035353 | 0,307789 | 0,268909 | -1,46442 | 0,531786 | 
| ЕСТ_НАУЧ | 0,270786 | 0,030275 | 0,20119 | 0,268909 | -1,70108 | 0,531786 | 
| ХУД_ЛИТ | 0,035658 | 0,003987 | 0,998436 | 0,268909 | 4,736905 | 0,531786 | 
| ПОЛ | 0,461149 | 0,051558 | -0,88964 | 0,268909 | -1,24019 | 0,531786 | 
| АКТИВН | 0,568698 | 0,063582 | 0,332993 | 0,268909 | -0,80374 | 0,531786 | 
Ящики с усами для исследуемых переменных представлены на рисунках 2-3.

Рисунок 2. Ящик с усами

Рисунок 3. Ящик с усами
Из рисунка 2 можно сделать вывод, что половина исследуемых людей находится в возрасте между 25 и 29,5 лет. Также мы видим среднее значение возраста людей – это 26 (минимальный возраст 21, а максимальный 37). Аналогичные выводы можно сделать по рисунку 3, где показаны значения частоты покупки литературы естественно-научного цикла через Интернет-магазин.
Для категоризованных данных ящик с усами изображен на рисунке 4.

Рисунок 4. Ящик с усами
3. Для анализируемых данных строим гистограммы, таблицы частот и диаграммы типа «ствол с листьями». Гистограмма представлена на рисунке 5.

Рисунок 4. Гистограмма
Выдвигаем гипотезу о нормальном распределении показателя возраст. Таблица частот распределения представлена в таблице 2.
Таблица 2 – Частота распределения
| ВОЗРАСТ (new1.sta) | ||||
| Cumul. | Cumul. | |||
| Count | Count | Percent | Percent | |
| 21 | 1 | 1 | 1,25 | 1,25 | 
| 22 | 1 | 2 | 1,25 | 2,5 | 
| 23 | 9 | 11 | 11,25 | 13,75 | 
| 24 | 7 | 18 | 8,75 | 22,5 | 
| 25 | 14 | 32 | 17,5 | 40 | 
| 26 | 9 | 41 | 11,25 | 51,25 | 
| 27 | 3 | 44 | 3,75 | 55 | 
| 28 | 7 | 51 | 8,75 | 63,75 | 
| 29 | 9 | 60 | 11,25 | 75 | 
| 30 | 5 | 65 | 6,25 | 81,25 | 
| 31 | 5 | 70 | 6,25 | 87,5 | 
| 32 | 3 | 73 | 3,75 | 91,25 | 
| 33 | 1 | 74 | 1,25 | 92,5 | 
| 34 | 1 | 75 | 1,25 | 93,75 | 
| 35 | 2 | 77 | 2,5 | 96,25 | 
| 36 | 1 | 78 | 1,25 | 97,5 | 
| 37 | 2 | 80 | 2,5 | 100 | 
| Missing | 0 | 80 | 0 | 100 | 
Мы видим, что в возраст 25 лет является наиболее часто встречающимся среди посетителей Интернет-магазина, а также возраста 23, 26 и 29 ( по 11,25%). Остальные частоты являются менее значительными.
Диаграмма «Ствол с листьями» представлена на рисунке 5.

Рисунок 5. Диаграмма «Ствол с листьями»
4. С помощью критерия Пирсона и критерия Колмогорова-Смирнова проверили гипотезы о виде распределения исследуемых непрерывных и дискретных признаков, выдвинутые в п. 3. В качестве переменной взята переменная «Возраст».
На рисунке 5 изображён результат проверки гипотезы о нормальном виде распределения:
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.