В некоторых случаях ситуация может быть не совсем однозначной. Так, например, набор данных о заработной плате всех сотрудников некоторой компании можно рассматривать и как генеральную совокупность (поскольку рассматриваются все работники этой компании) и как выборку (если рассматривать сотрудников компании как представителей большей генеральной совокупности подобного рода специалистов). Такая неоднозначность является следствием оценки рассматриваемой ситуации, а не следствием характера самих данных. Если считать, что данные охватывают полностью круг решаемых задач, то эти данные, безусловно, представляют собой генеральную совокупность. Если же мы ставим цель провести некоторое обобщение (например, перейти от рассмотрения сотрудников данной компании к рассмотрению сотрудников, работающих в аналогичных компаниях), то те же данные можно считать выборкой из некоторой (возможно, гипотетической) генеральной совокупности.
Чтобы покончить с оставшимися неясностями, примем следующее правило: при наличии сомнений использовать стандартное отклонение для выборки. Эта величина несколько больше, и выбрать ее — значит, поступить более осторожно и консервативно, и в конечном итоге не допустить систематической недооценки неопределенности.
Что касается вычислений, то единственное различие между этими двумя показателями состоит в том, что при вычислении стандартного отклонения выборки вычитают 1 (т.е. делят на n- 1), а при вычислении стандартного отклонения генеральной совокупности не вычитают 1 (т.е. делят на N). В связи с этим использование формулы стандартного отклонения для выборки дает несколько большее значение для небольших размеров выборки, что отражает увеличение неопределенности, обусловленной использованием выборки вместо всего множества данных.
Справедливо также следующее утверждение: при делении не на n, а на n - 1 дисперсия выборки (квадрат стандартного отклонения) становится "несмещенной" оценкой (т.е. корректной и для генеральной совокупности в среднем). Однако стандартное отклонение выборки по-прежнему остается "смещенной" оценкой стандартного отклонения генеральной совокупности.
Существуют также некоторые общепринятые различия в обозначениях. Среднее для выборки из n элементов обозначается , а среднее генеральной совокупности из N элементов обозначается греческой буквой m ("мю").
5.2. Размах: быстрая и поверхностная оценка
Размах,или интервал, занимаемый значениями данных, равен разности между самым большим и самым малым значениями. Он определяет, до какой степени отдельные значения отличаются между собой. Ниже показано вычисление размаха для небольшого набора данных, представляющих количество полученных за последнее время заказов на пять различных видов товара:
Размах набора данных (185, 246, 92, 508, 153) = максимальное - минимальное = 508 - 92 = 416.
Обратите внимание, что размах очень легко вычислить. Для этого нужно только просмотреть список значений, выбрать из списка самое большое и самое малое значения, а затем вычесть из большего меньшее. Раньше, до появления электронных калькуляторов и компьютеров, простота вычисления размаха была причиной того, что этот показатель часто использовался в качестве меры изменчивости. Теперь, когда вычислять стандартное отклонение стало намного проще, размах используют не так часто.
Когда важны экстремальные значения (т.е. наибольшее и наименьшее), размах может быть хорошей мерой разброса. Примером может быть необходимость описать пределы изменения значений данных. Такая характеристика может оказаться полезной для двух целей: во-первых, для описания границ изменения данных и, во-вторых, для поиска ошибок в значениях. При наличии в наборе данных очень больших (или очень малых) ошибочно записанных значений размах имеет тенденцию возрастать и сразу же становится, с позиций здравого смысла, слишком большим. Такая особенность делает размах полезным для поиска ошибок и редактированиязначений данных.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.