Изменчивость: изучение разнообразия. Стандартное отклонение: традиционный выбор. Размах: быстрая и поверхностная оценка, страница 2

Если все величины одинаковы, как, например, в приведенном ниже простом наборе данных

5,5;   5,5;   5,5;   5,5

то среднее будет иметь значение = 5,5, а стандартное отклонение составит S = 0. Последнее отражает тот факт, что в этом тривиальном наборе данные не подвержены изменчивости.

В реальной жизни большинство данных характеризуется большей или мень­шей степенью изменчивости. Отдельные значения набора данных располагаются на некотором расстоянии от среднего, а стандартное отклонение характеризует степень изменчивости. Рассмотрим теперь другой набор данных, которым при­суща некоторая изменчивость:

43,0;    17,7;    8,7;    - 47,4

Эти числа являются значениями ставки доходности (например, 43%) акций четырех компаний (Maytag, BostonScientific, Catalyticaи MitchamIndustries), выбранных случайным образом. Среднее значение в этом случае такое же,  = 5,5 , т.е. эти акции имеют среднюю ставку доходно­сти 5,5% (это означает, что портфель равных в денежном выражении инвести­ций в названные выше акции будет иметь эту среднюю доходность 5,5%). Не­смотря на то, что среднее значение здесь такое же, как и в предыдущем случае, отдельные значения данных существенно различаются между собой. Первая ве­личина, 43,0, располагается на расстоянии Х1 -  = 43,0 - 5,5 = 37,5 от сред­него значения. Из этого следует, что ставка доходности акций Maytagпревыша­ет среднюю ставку доходности на 37,5%. Последнее значение, - 47,4, расположе­но от среднего на расстоянии X4 - = - 47,4 - 5,5 = - 52,9; таким образом, ставка доходности акций MitchamIndustriesоказывается на 52,9% ниже сред­него уровня (ниже — поскольку величина отрицательна).

Описанные выше расстояния от среднего значения называются отклонением, или разностью. Они показывают, насколько выше среднего значения (в случае положительной разности) или ниже среднего (если разность отрицательна) ле­жит каждое значение данных. Отклонения в свою очередь образуют набор дан­ных, расположенных вокруг нуля, что похоже на исходный набор данных, зна­чения в котором расположены вокруг среднего.

В качестве обобщающей характеристики отклонений используют стандартное отклонение. Просто усреднить отклонения нельзя, поскольку часть из них ока­жется отрицательными, а часть — положительными, в результате чего результат такого усреднения всегда будет равен нулю и не будет содержать никакой до­полнительной информации.

Вместо этого используют стандартный прием, за­ключающийся в том, что каждое значение сначала возводят в квадрат (т.е. его умножают на себя), чтобы избавиться от знака "минус", затем складывают, делят на n- 1 и извлекают квадратный корень (это обратная операция по отно­шению к выполненному ранее возведению в квадрат).

Путем алгебраических преобразований можно показать, что сумма отклонений от среднего для любого набора данных всегда будет равна нулю. Казалось бы, следует просто заменить знаки "минус" на "плюс" и затем провести усреднение. Однако, такой простой метод не обеспечивает эффективного использования всей содержащейся в дан­ных информации, если речь идет о нормальном распределении.

Деление на n - 1 вместо n (как это обычно делают при вычислении среднего значения) связано с поправкой, обусловленной тем фактом, что при работе с выборкой истинное значение средне­го генеральной совокупности неизвестно. Можно также считать, что эта поправка обусловлена потерей при вычислении отклонений одной порции информации (или, как говорят в статисти­ке, одной степени свободы). Потерянной является информация об истинных значениях данных (поскольку теперь, при работе с отклонениями, данные расположены не вокруг среднего, а во­круг нуля).

Определение и формула для стандартного отклонения и дисперсии

Обратите внимание на то, что при вычислении стандартного отклонения вычисляется также дисперсия (квадрат стандартного отклонения). Дисперсию иногда используют в качестве меры изменчивости в статистике, особенно когда работают непосредственно с формулами. Однако часто в качестве меры изменчивости лучше брать стандартное отклонение. Дисперсия не несет никакой дополнительной (по сравнению со стандартным отклонением) ин­формации, и в то же время, в практических применениях ее сложнее интерпре­тировать, чем стандартное отклонение. Так, например, в случае набора данных, содержащего потраченные суммы денег (измеренные в долларах), дисперсия бу­дет выражаться в "долларах в квадрате", - это единица измерения, которую трудно себе представить; в то же время стандартное отклонение для этого набора данных будет выражено в привычных для всех долларах.