Изменчивость: изучение разнообразия. Стандартное отклонение: традиционный выбор. Размах: быстрая и поверхностная оценка, страница 5

В некоторых случаях ситуация может быть не совсем однозначной. Так, на­пример, набор данных о заработной плате всех сотрудников некоторой компании можно рассматривать и как генеральную совокупность (поскольку рассматрива­ются все работники этой компании) и как выборку (если рассматривать сотрудников компании как представителей большей генеральной совокупности подобного рода специалистов). Такая неоднозначность является следствием оценки рассматриваемой ситуации, а не следствием характера самих данных. Если считать, что данные охватывают полностью круг решаемых задач, то эти данные, безусловно, представляют собой генеральную совокупность. Если же мы ставим цель провести некоторое обобщение (например, перейти от рассмотрения сотрудников данной компании к рассмотрению сотрудников, работающих в аналогичных компаниях), то те же данные можно считать выборкой из некоторой (возможно, гипотетической) генеральной совокупности.

Чтобы покончить с оставшимися неясностями, примем следующее правило: при наличии сомнений использовать стандартное отклонение для выборки. Эта величина несколько больше, и выбрать ее — значит, поступить более осторожно и консервативно, и в конечном итоге не допустить систематической недооценки неопределенности.

Что касается вычислений, то единственное различие между этими двумя по­казателями состоит в том, что при вычислении стандартного отклонения выбор­ки вычитают 1 (т.е. делят на n- 1), а при вычислении стандартного отклонения генеральной совокупности не вычитают 1 (т.е. делят на N). В связи с этим ис­пользование формулы стандартного отклонения для выборки дает несколько большее значение для небольших размеров выборки, что отражает увеличение неопределенности, обусловленной использованием выборки вместо всего множе­ства данных.

Справедливо также следующее утверждение: при делении не на n, а на n - 1 дисперсия вы­борки (квадрат стандартного отклонения) становится "несмещенной" оценкой (т.е. корректной и для генеральной совокупности в среднем). Однако стандартное отклонение выборки по-прежнему остается "смещенной" оценкой стандартного отклонения генеральной совокупности.

Существуют также некоторые общепринятые различия в обозна­чениях. Среднее для выборки из n элементов обозначается , а среднее гене­ральной совокупности из N элементов обозначается греческой буквой m ("мю").

5.2. Размах: быстрая и поверхностная оценка

Размах,или интервал, занимаемый значениями данных, равен разности ме­жду самым большим и самым малым значениями. Он определяет, до какой сте­пени отдельные значения отличаются между собой. Ниже показано вычисление размаха для небольшого набора данных, представляющих количество получен­ных за последнее время заказов на пять различных видов товара:

Размах набора данных (185, 246, 92, 508, 153) = максимальное - минимальное = 508 - 92 = 416.

Обратите внимание, что размах очень легко вычислить. Для этого нужно только просмотреть список значений, выбрать из списка самое большое и самое малое значения, а затем вычесть из большего меньшее. Раньше, до появления электронных калькуляторов и компьютеров, простота вычисления размаха была причиной того, что этот показатель часто использовался в качестве меры измен­чивости. Теперь, когда вычислять стандартное отклонение стало намного проще, размах используют не так часто.

Когда важны экстремальные значения (т.е. наибольшее и наименьшее), раз­мах может быть хорошей мерой разброса. Примером может быть необходимость описать пределы изменения значений данных. Такая характеристика может ока­заться полезной для двух целей: во-первых, для описания границ изменения данных и, во-вторых, для поиска ошибок в значениях. При наличии в наборе данных очень больших (или очень малых) ошибочно записанных значений раз­мах имеет тенденцию возрастать и сразу же становится, с позиций здравого смысла, слишком большим. Такая особенность делает размах полезным для по­иска ошибок и редактированиязначений данных.