Разведывательный анализ данных. Анализ данных с использованием модуля Basic Statistics и Distribution Fitting

Страницы работы

Содержание работы

Лабораторная работа №1

Разведывательный анализ данных 

Цель работы:

- Получить практические навыки проведения предварительного (разведывательного) анализа данных с использованием модуля Basic Statistics (Основные статистики) пакета и Distribution Fitting (Подгонка распределений) пакета STATISTICA.

- Создать подробный электронный отчет о работе с описанием анализируемых данных, выполняемых статистических процедур, полученных результатов. Особое внимание уделить статистическому обоснованию метода.  

Последовательность выполнения работы

1) Подобрать данные для анализа. Данные должны быть многомерными, содержать наблюдения c дискретными и непрерывными случайными величинами. Среди данных должны быть категоризованные переменные (т.е. значения признака можно отнести к одной из заранее определенных категорий). Данные должны быть уникальными для каждой бригады. Рекомендуемые файлы с данными: Дома, Бейсбол, РакСигареты, Кредиты, Сотрудники, Женщины, ПреподЗатраты, Загрязнения, Забеги, Зарплата, Рабсила, Драфт, Яйца.

2) Для выбранных данных вычислить основные описательные статистики: среднее, выборочную дисперсию, коэффициенты асимметрии и эксцесса, медиану, верхнюю и нижнюю квартили. Не забудьте для каждой характеристики привести доверительные интервалы с выбранным уровнем значимости. Постройте ящики с усами для исследуемых переменных. Выполните эти действия для категоризованных и некатегоризованных данных. Сделайте и обоснуйте выводы.

3) Для анализируемых данных построить гистограммы, таблицы частот и диаграммы типа "ствол с листьями". Выдвиньте гипотезы о виде распределения исследуемых переменных. Для категоризованных данных построить категоризованные графики, воспользовавшись пунктом меню Categorized Plots. Сделайте и обоснуйте выводы..

4) С помощью критерия Пирсона и критерия Колмогорова-Смирнова проверить гипотезы о виде распределения исследуемых непрерывных и дискретных признаков, выдвинутые в п. 3.

5) Проверить гипотезы о равенстве мат. ожиданий исследуемых переменных заданным значениям с помощью одновыборочного t-теста. Используя двухвыборочный t-критерий проверить гипотезу о равенстве мат. ожиданий двух выборок для случая парных данных и для случая категоризованных данных.

6) Вычислить корреляционную матрицу для исследуемых выборок, сделать вывод о наличии (или отсутствии) линейной связи между случайными величинами, соответствующих данным выборкам.

Вопросы к защите

1) Понятие случайной величины (СВ), основные числовые характеристики СВ (мат. ожидание и т.п.) и их выборочные аналоги. Доверительные интервалы.

2) Построение эмпирической функции распределения и гистограммы, таблицы частот, диаграмм "Ствол с листьями", "Ящик с усами".

3) Проверка гипотез. Уровень значимости, мощность критерия. Односторонние и двухсторонние критерии.

4) Критерий согласия Пирсона и Колмогорова-Смирнова.

5) t-критерий для одновыборочных и двухвыборочных данных.

6) Коэффициент корреляции, его выборочный аналог. Частные корреляции.

7) Анализ таблиц. Проверка гипотез о независимости категориальных переменных.

8) Многомерные отклики и дихотомии.

Информация о работе