Гистограммы: взгляд на распределение данных, страница 4

Сравните гистограмму значений данных (рис. 3.2.2) и столбиковую диаграм­му, приведенную на рис. 3.2.3. Обратите внимание, что столбики на гистограмме показывают количество отраслей в каждом из диапазонов заработной платы, а столбики на столбиковой диаграмме — фактическое значение заработной платы в конкретной отрасли. Полезны оба графических изображения. Столбиковую диаграмму лучше ис­пользовать, когда желательно идентифицировать все значения из набора дан­ных, при условии, что набор данных достаточно небольшой. Однако для получе­ния общего представления о наборе данных больше подходит гистограмма, осо­бенно при больших наборах данных с множеством чисел

Рис. 3.2.2. Гистограмма значений начального размера зара­ботной платы.

Обратите внимание, что каждый столбик может представлять больше одной отрасли (см. число на вертикальной оси слева). Столбики по­казывают, какие диапазоны заработной платы чаще, а какие реже встречаются в этом наборе данных

Рис. 3.2.3. Столбиковая диаграмма значений начального размера заработной платы.

Обратите внимание, что каждый стол­бик представляет одну отрасль промышленности

3.3. Нормальное распределение

Нормальное распределение представляет собой теоретическую гладкую гисто­грамму в форме колокола без случайных отклонений. Такая кривая представля­ет идеальный набор данных, в котором большинство чисел сконцентрировано в средней части диапазона значений, а оставшиеся значения с затуханием симмет­рично расположены по обе стороны от вершины колокола. Такая степень глад­кости не присуща реальным данным. На рисункеприведена кривая нормаль­ного распределения.

 Идеальная (теоретическая) кривая нормального распределения. Реальные нормально распределенные на­боры данных имеют некоторые случайные отклонения от этой идеально гладкой кривой

Для любознательных приведем формулу этой колоколоподобной кривой:        

где

m- центр, определяет горизонтальное положение наивысшей точки, а s определяет ширину колокола (изменчивость или масштаб).

Фактически существует много различных кривых нормального распределе­ния, форма которых напоминает симметричный колокол. Они отличаются рас­положением центра и масштабом (шириной колокола). Чтобы построить кон­кретную кривую нормального распределения, следует взять базовую кривую в форме колокола, переместить ее по горизонтали в точку, где предполагается разместить центр, а затем растянуть (или сжать).

Почему нормальное распределение играет такую важную роль в статистике? Обычно предполагают, что распределение данных приблизительно соответствует нормальному. В частности, многие стандартные методы для вычисления доверительных интервалов и про­верки статистических гипотез (о которых вы узнаете позже) требуют, чтобы данные были рас­пределены нормально (по крайней мере, приблизительно). Специалисты-статистики знают свойства нормаль­ного распределения и используют их всякий раз, когда гистограмма похожа на кривую нормального распределения.

В каком случае можно сказать, что набор данных подчиняется нормальному распределению? Хороший способ заключается в том, чтобы внимательно изучить гистограмму.

Действительно ли в реальной жизни все наборы данных подчиняются нор­мальному распределению? Конечно, нет. Используя гистограмму, важно опреде­лить, являются ли данные нормально распределенными. Это особенно важно, ес­ли дальнейший анализ предполагает использование стандартных статистических процедур, которые требуют нормального распределения данных.

3.4. Несимметричные распределения и преобразование данных

Несимметричное (скошенное) распределение не является ни симметричным, ни нормальным, поскольку значения данных на одной стороне кривой затухают быстрее, чем на другой. В бизнесе часто можно встретить асимметрию в наборах данных, которые отражают величины, выраженные положительными числами (например, объемы продаж или размеры активов). Это связано с тем, что такие данные не могут принимать отрицательные значения (наличие границы с одной стороны) и значения не ограничены сверху. В результате на гистограмме много значений данных сконцентрировано около нуля, и количество значений становится все меньше и меньше при движении по горизонтальной оси гистограммы вправо.

Пример. Активы коммерческих банков