Изменчивость: изучение разнообразия. Стандартное отклонение: традиционный выбор. Размах: быстрая и поверхностная оценка, страница 9

Чтобы вычислить стандартное отклонение, необходимо выполнить следующее.

1. Найти отклонения, вычитая из каждого значения набора данных среднее.

2. Возвести полученные величины отклонений в квадрат, сложить их и раз­делить полученную сумму на n- 1. Полученный результат называется дис­персией.

3. Извлечь квадратный корень. Полученное значение и есть стандартное от­клонение.

При работе с данными обо всей генеральной совокупности необходимо ис­пользовать стандартное отклонение генеральной совокупности (обозначается бу­квой s). В том случае, если необходимо сделать обобщение и перейти от имею­щегося набора данных к некоторому большему множеству (реальному или гипо­тетическому), используется стандартное отклонение выборки (обозначается буквой S). При возникновении сомнений в том, какую их этих величин приме­нить, нужно использовать стандартное отклонение выборки.

При вычислении стандартного откло­нения выборки делят на n- 1, поскольку отклонения вычисляют на основе неопределенного среднего значения выборки, а не на основе точного среднего значения генеральной совокупности.

Дисперсия — это квадрат стандартного отклонения. Эта величина несет ту же информацию, что и стандартное отклонение. Однако интерпретация дисперсии затруднена тем, что единицы измерения дисперсии представляют собой квадрат единиц измерения исходных данных (например, доллар в квадрате, квадратные мили на один галлон в квадрате или килограммы в квадрате, независимо от со­держательного смысла таких единиц). В связи с этим в качестве характеристики изменчивости чаще используют стандартное отклонение.

Если данные имеют нормальное распределение, стандартное отклонение рав­но приблизительно половине длины отрезка числовой прямой, который содер­жит две трети всех значений набора данных. Это означает, что приблизительно две трети всех значений находятся на расстоянии не более одной величины стан­дартного отклонения от среднего (выше или ниже среднего). Приблизительно 95% всех значений находятся на расстоянии не более двух величин стандартного отклонения от среднего, а около 99,7% значений лежат в пределах трех стан­дартных отклонений от среднего. Однако не следует ожидать справедливости этих утверждений для других (отличающихся от нормального) распределений.

Размах равен разности между максимальным и минимальным значениями набора данных. Эта величина характеризует протяженность, или ширину, набо­ра данных. Размах используют как для описания данных, так и для поиска про­блем в данных (в частности, для поиска ошибок при записи значений). Как ста­тистическая характеристика размах имеет тот недостаток, что он акцентирует внимание только на экстремальных значениях и не учитывает типичные значе­ния. Для большинства целей статистического анализа в качестве меры изменчи­вости более полезно использовать стандартное отклонение.

Коэффициент вариации равен частному от деления стандартного отклонения на среднее значение и характеризует относительную изменчивость данных, вы­раженную в долях или процентах от среднего. Коэффициент вариации — безразмерная величина. Он может быть полезен при сравнении изменчивости на­боров данных, представленных в различных единицах измерения.

Прибавление фиксированного числа ко всем значениям набора данных приво­дит к увеличению среднего, медианы, перцентилей и моды на такое же число; стандартное отклонение и размах при этом не изменяются. При умножении ка­ждого из значений набора данных на фиксированное число все характеристи­ки — среднее, медиана, перцентили, мода, стандартное отклонение и размах - умножаются на это же число, а коэффициент вариации не изменяется. Стандартное отклонение и размах умножаются на абсолютное значение этого числа и таким образом остаются положительными.

При умножении каждого из значений данных на некоторое число и прибавлении другого фиксированного числа два описанных выше правила действуют совмест­но. Коэффициент вариации можно легко определить после того, как с примене­нием этих правил вычисляется среднее и стандартное отклонения.