Изменчивость: изучение разнообразия. Стандартное отклонение: традиционный выбор. Размах: быстрая и поверхностная оценка, страница 2

Если все величины одинаковы, как, например, в приведенном ниже простом наборе данных

5,5; 5,5; 5,5; 5,5

то среднее будет иметь значение = 5,5, а стандартное отклонение составит S = 0. Последнее отражает тот факт, что в этом тривиальном наборе данные не подвержены изменчивости.

В реальной жизни большинство данных характеризуется большей или меньшей степенью изменчивости. Отдельные значения набора данных располагаются на некотором расстоянии от среднего, а стандартное отклонение характеризует степень изменчивости. Рассмотрим теперь другой набор данных, которым присуща некоторая изменчивость:

43,0; 17,7; 8,7; - 47,4

Эти числа являются значениями ставки доходности (например, 43%) акций четырех компаний (Maytag, BostonScientific, Catalyticaи MitchamIndustries), выбранных случайным образом. Среднее значение в этом случае такое же, = 5,5 , т.е. эти акции имеют среднюю ставку доходности 5,5% (это означает, что портфель равных в денежном выражении инвестиций в названные выше акции будет иметь эту среднюю доходность 5,5%). Несмотря на то, что среднее значение здесь такое же, как и в предыдущем случае, отдельные значения данных существенно различаются между собой. Первая величина, 43,0, располагается на расстоянии Х₁ - = 43,0 - 5,5 = 37,5 от среднего значения. Из этого следует, что ставка доходности акций Maytagпревышает среднюю ставку доходности на 37,5%. Последнее значение, - 47,4, расположено от среднего на расстоянии X₄- = - 47,4 - 5,5 = - 52,9; таким образом, ставка доходности акций MitchamIndustriesоказывается на 52,9% ниже среднего уровня (ниже — поскольку величина отрицательна).

Описанные выше расстояния от среднего значения называются отклонением, или разностью. Они показывают, насколько выше среднего значения (в случае положительной разности) или ниже среднего (если разность отрицательна) лежит каждое значение данных. Отклонения в свою очередь образуют набор данных, расположенных вокруг нуля, что похоже на исходный набор данных, значения в котором расположены вокруг среднего.

В качестве обобщающей характеристики отклонений используют стандартное отклонение. Просто усреднить отклонения нельзя, поскольку часть из них окажется отрицательными, а часть — положительными, в результате чего результат такого усреднения всегда будет равен нулю и не будет содержать никакой дополнительной информации.

Вместо этого используют стандартный прием, заключающийся в том, что каждое значение сначала возводят в квадрат (т.е. его умножают на себя), чтобы избавиться от знака "минус", затем складывают, делят на n- 1 и извлекают квадратный корень (это обратная операция по отношению к выполненному ранее возведению в квадрат).

Путем алгебраических преобразований можно показать, что сумма отклонений от среднего для любого набора данных всегда будет равна нулю. Казалось бы, следует просто заменить знаки "минус" на "плюс" и затем провести усреднение. Однако, такой простой метод не обеспечивает эффективного использования всей содержащейся в данных информации, если речь идет о нормальном распределении.

Деление на n - 1 вместо n (как это обычно делают при вычислении среднего значения) связано с поправкой, обусловленной тем фактом, что при работе с выборкой истинное значение среднего генеральной совокупности неизвестно. Можно также считать, что эта поправка обусловлена потерей при вычислении отклонений одной порции информации (или, как говорят в статистике, одной степени свободы). Потерянной является информация об истинных значениях данных (поскольку теперь, при работе с отклонениями, данные расположены не вокруг среднего, а вокруг нуля).

Определение и формула для стандартного отклонения и дисперсии

Обратите внимание на то, что при вычислении стандартного отклонения вычисляется также дисперсия (квадрат стандартного отклонения). Дисперсию иногда используют в качестве меры изменчивости в статистике, особенно когда работают непосредственно с формулами. Однако часто в качестве меры изменчивости лучше брать стандартное отклонение. Дисперсия не несет никакой дополнительной (по сравнению со стандартным отклонением) информации, и в то же время, в практических применениях ее сложнее интерпретировать, чем стандартное отклонение. Так, например, в случае набора данных, содержащего потраченные суммы денег (измеренные в долларах), дисперсия будет выражаться в "долларах в квадрате", - это единица измерения, которую трудно себе представить; в то же время стандартное отклонение для этого набора данных будет выражено в привычных для всех долларах.

1 2 3 4 5 6 7 8 9

Скачать файл