Лабораторная работа №1
Разведывательный анализ данных
Цель работы:
- Получить практические навыки проведения предварительного (разведывательного) анализа данных с использованием модуля Basic Statistics (Основные статистики) пакета и Distribution Fitting (Подгонка распределений) пакета STATISTICA.
- Создать подробный электронный отчет о работе с описанием анализируемых данных, выполняемых статистических процедур, полученных результатов. Особое внимание уделить статистическому обоснованию метода.
Последовательность выполнения работы
1) Подобрать данные для анализа. Данные должны быть многомерными, содержать наблюдения c дискретными и непрерывными случайными величинами. Среди данных должны быть категоризованные переменные (т.е. значения признака можно отнести к одной из заранее определенных категорий). Данные должны быть уникальными для каждой бригады. Рекомендуемые файлы с данными: Дома, Бейсбол, РакСигареты, Кредиты, Сотрудники, Женщины, ПреподЗатраты, Загрязнения, Забеги, Зарплата, Рабсила, Драфт, Яйца.
2) Для выбранных данных вычислить основные описательные статистики: среднее, выборочную дисперсию, коэффициенты асимметрии и эксцесса, медиану, верхнюю и нижнюю квартили. Не забудьте для каждой характеристики привести доверительные интервалы с выбранным уровнем значимости. Постройте ящики с усами для исследуемых переменных. Выполните эти действия для категоризованных и некатегоризованных данных. Сделайте и обоснуйте выводы.
3) Для анализируемых данных построить гистограммы, таблицы частот и диаграммы типа "ствол с листьями". Выдвиньте гипотезы о виде распределения исследуемых переменных. Для категоризованных данных построить категоризованные графики, воспользовавшись пунктом меню Categorized Plots. Сделайте и обоснуйте выводы..
4) С помощью критерия Пирсона и критерия Колмогорова-Смирнова проверить гипотезы о виде распределения исследуемых непрерывных и дискретных признаков, выдвинутые в п. 3.
5) Проверить гипотезы о равенстве мат. ожиданий исследуемых переменных заданным значениям с помощью одновыборочного t-теста. Используя двухвыборочный t-критерий проверить гипотезу о равенстве мат. ожиданий двух выборок для случая парных данных и для случая категоризованных данных.
6) Вычислить корреляционную матрицу для исследуемых выборок, сделать вывод о наличии (или отсутствии) линейной связи между случайными величинами, соответствующих данным выборкам.
1) Понятие случайной величины (СВ), основные числовые характеристики СВ (мат. ожидание и т.п.) и их выборочные аналоги. Доверительные интервалы.
2) Построение эмпирической функции распределения и гистограммы, таблицы частот, диаграмм "Ствол с листьями", "Ящик с усами".
3) Проверка гипотез. Уровень значимости, мощность критерия. Односторонние и двухсторонние критерии.
4) Критерий согласия Пирсона и Колмогорова-Смирнова.
5) t-критерий для одновыборочных и двухвыборочных данных.
6) Коэффициент корреляции, его выборочный аналог. Частные корреляции.
7) Анализ таблиц. Проверка гипотез о независимости категориальных переменных.
8) Многомерные отклики и дихотомии.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.