Разведывательный анализ данных с использованием модуля Basic Statistics (Основные статистики) и Distribution Fitting (Подгонка распределений) пакета STATISTICA.

Страницы работы

47 страниц (Word-файл)

Содержание работы

ЧАСТЬ 1

Цель работы:

- Получить практические навыки проведения предварительного (разведывательного) анализа данных с использованием модуля Basic Statistics (Основные статистики) и Distribution Fitting (Подгонка распределений) пакета STATISTICA.

- Создать подробный электронный отчет о работе с описанием анализируемых данных, выполняемых статистических процедур, полученных результатов, включающий графики и таблицы. Особое  внимание уделить статистическому обоснованию выводов.

§ Последовательность выполнения работы:

1)  Для выполнения разведывательного анализа были выбранные данные предприятия по производству кондитерских изделий. Данные по «Выпуску продукции» содержат:

o  наблюдения за дискретными сл. в.: * себестоимость единицы продукции, руб.;

* цена реализации единицы продукции, руб.;

* годовой объем продаж, т. руб.;

* доход за год, т.руб.

o  наблюдения за непрерывными сл. в.: * выпуск в месяц, шт.

o  категоризованные данные: * тип ассортимента (новый, существующий);

* ДГУП (филиалы: г. Абакан, г. Омск, г. Томск)

* вид продукции (хлебобулочные изделия, торты, пирожные, кексы/рулеты);

* наименование изделия

o  многомерные данные: данные выражены в единицах измерения:  шт., руб.                                                                            

2)  Для выбранных данных вычислим основные описательные статистики:  

2.1. Для некатегоризованных данных:

             где:

Valid N – количество наблюдений (наименований продукции [кондитерских изделий])

Mean – среднее значение

Confidence -95.000%/+95,000% - доверительный интервал -95,000%/+95,000%

Geometric Mean – среднее геометрическое

Harmonic Mean – среднее гармоническое

Median – медиана

Mode – мода

Frequency of Mode – частота появления значения моды

Всего было проанализировано 145 выпускаемых кондитерских изделий по 3 филиалам управления торговлей.  Средний выпуск продукции в месяц составил 391 шт. , средняя себестоимость по единице выпускаемой продукции – 24,7 руб., средняя цена единицы продукции – 50 руб., средний годовой объем продаж – 231 тыс. руб., средний годовой доход – 112, 08 тыс. руб.

Значения средних (себестоимости единицы продукции и цена единицы продукции) близко со значениями медиан, а значения средних (выпуск продукции, годовой объем продаж, годовой доход) отличаются от значений медиан. Для двух параметров (себестоимость изделия и годовой объем продаж) значение моды неопределенно (т.е. максимальных значений плотности вероятности несколько), это может быть вызвано неоднородностью выборки.

где:

Sum – сумма значений

Minimum – минимальное значение

Maximum – vмаксимально значение

Lover/upper Quartile – нижняя/верхняя квартиль

Percentile – персентиль

Range – диапазон

Quartile range – диапазон квартили 

Выпуск продукции в месяц по всем филиалам составляет 56725 шт., годовой объем продаж – 33496 т.руб., доход в год (по всем филиалам) – 16252 т.руб. Описательная статистика также позволяет определить размах значений, так мы видим, что к примеру, выпуск продукции по номенклатуре изделий изменяется в диапазоне от 20 до 1320 шт., значение себестоимости от 0,9 до 74 руб., цена реализации изделия – от 2,2 до 156 руб., годовой объем продаж – 1,44 до 1560 т.руб. , доход в год по каждой номенклатуре выпуска изменяется от 0, 979 до 842, 4. Такой большой разброс показателей зависит от вида продукции (так, например, хлебобулочные изделия имеют небольшую себестоимость, а  цена реализации зависит от наценки, но т.к. этот товар относится к товарам первой надобности, наценка на данный вид товаров не должна превышать 30%, в связи с чем, цена реализации невысокая, чего нельзя сказать о тортах, поэтому и происходит такой большой размах как в себестоимости, так и в ценах, а объем продаж и доход являются вытекающими параметрами).

Также приводятся значения квартилей (25%, 75%), персентилей (10%, 90%). Так например, значения, находящиеся в зоне, где расположено менее 25% наблюдаемых значений переменной располагаются в нижнем квартиле: например, нижняя квартиль для выпуска продукции составила -  160 шт. А значения, находящиеся в зоне, где расположены 25% самых верхних наблюдаемых значений (другими словами, свыше 75%), располагаются в верхнем квартиле. И для выпуска продукции верхняя квартиль составляет – 600 шт. (Большой размах свидетельствует о специализации предприятия: в данном случае, специализация идет на торты и пирожные, а выпуск хлебобулочных изделий и кексов/рулетов - невысокий). Диапазон квартилей показывает  разницу между верхней и нижней квартилями, так для цены реализации продукции диапазон составил 95,7%.

где:

Variance – дисперсия

Std.Dev – стандартное отклонение

Standard error – стандартная ошибка

Skewness – асимметрия

Standard error Skewness – стандартная ошибка асимметрии

Kurtosis – эксцесс

Standard error Kurtosis – стандартная ошибка эксцесса

Информация о работе