Обобщающие показатели: интерпретация типических значений и перцентилей

Страницы работы

Содержание работы

Обобщающие показатели: интерпретация типических значений и перцентилей

В сложных ситуациях один из самых эффективных способов "увидеть всю картину" заключается в обобщении,т.е. использовании одного или нескольких отобранных или рассчитанных значений для характеристики набора данных. Подробное изучение каждого отдельного случая само по себе не является стати­стической деятельностью (если есть время для изучения каждого значения, может быть, это стоит сделать!), но обнаружение и идентификация особенностей, которые в целом характерны для рассматриваемых случаев, представляют собой статистическую дея­тельность, так как вся информация при этом рас­сматривается в целом.

Одна из целей статистики состоит в том, чтобы свести набор данных к одному числу (или двум, или нескольким), которое выражает наиболее фун­даментальные свойства данных. Методы, наиболее подходящие для анализа одного списка чисел (т.е. одномерного набора данных), включают определе­ние следующих показателей.

Среднее, медиана и мода— это различные спо­собы выбора единственного числа, которое лучше всего описывает все числа в наборе данных. Такой представленный одним числом показатель называ­ется типическим значением, или центром (также используют термин мера центральной тенден­ции).

Перцентиль (также используют термин процентиль) обобщает информацию о рангах, характеризуя значение, достигаемое за­данным процентом общего количества данных, по­сле того, как данные упорядочиваются (ранжиру­ются) по возрастанию.

Стандартное отклонение— характеристика различий между значениями в наборе данных. Это понятие также называют разбросом, или изменчивостью.

Как быть, если набор данных содержит отдельные значения, которые неадек­ватно описываются этими показателями? Такие выбросы (сильно отклоняющие­ся значения) можно просто описать отдельно. Таким образом, можно охаракте­ризовать большой набор данных, обобщив основные свойства большинства его элементов и затем создав список исключений. Это позволяет достичь статистиче­ской цели эффективного описания большого набора данных с учетом особой природы отдельных элементов.

4.1. Чему равно наиболее типическое значение?

Простейшее обобщение любого набора данных представляет собой единственное число, которое наилучшим образом представляет все значения данных. Такое чис­ло можно было бы назвать типическим значением для данного набора данных. Если не все значения в наборе данных одинаковы, то мнения о "наиболее типиче­ском" могут быть разными. Существуют три вида такой обобщающей меры.

1. Среднее, которое можно вычислять только для имеющих содержательный смысл чисел (для количественных данных).

2. Медиана, или серединная точка, которую можно вычислять как для упо­рядоченных категорий (порядковые данные), так и для чисел.

3. Мода, или наиболее часто встречающаяся категория, которую можно вы­числять для неупорядоченных категорий (для номинальных данных), для упорядоченных категорий и для чисел.

Среднее: типическое значение для количественных данных

Среднее чаще всего используют как типическое значение списка чисел и вы­числяют путем сложения всех чисел списка и деления полученной суммы на ко­личество чисел в списке (количество элементарных единиц). Формула вычисле­ния выборочного среднего (т.е. среднего выборки данных) имеет следующий вид:

Выборочное среднее

=

Сумма значений элементов данных

Количество элементов данных

где п - общее число элементов в списке данных,

х1 ... хk ,— непосредствен­но сами значения данных.

Греческая прописная буква сигма, S, указывает на необходимость сложить все значения, которые записаны за ней, заменяя при этом индекс i значениями от 1 до п .

Понятие среднего не зависит от того, представляет ваш список чисел всю ге­неральную совокупность или же репрезентативную выборку из большей сово­купности. В то же время обозначения несколько различаются. Для всей гене­ральной совокупности количество элементов обозначают буквой N, а среднее - буквой m (греческая буква "мю"). Процесс вычисления среднего одинаков как для генеральной совокупности, так и для выборки.

Поскольку при вычислении среднего значения данные суммируют, ясно, что среднее нельзя вычислять для качественных данных (нельзя складывать цвета или рейтинги долговых обязательств).

Среднее можно интерпретировать как равномерное распределение суммы всех значений между элементарными единицами. Таким образом, если каждое значе­ние данных заменить средним, то общая сумма не изменится. Например, из базы данных служащих можно вычислить среднюю заработную плату служащих в Хьюстоне. Это среднее можно интерпретировать таким образом: если бы мы вы­плачивали всем служащим Хьюстона одинаковую заработную плату, не изменяя при этом общий фонд заработной платы, то значение этой заработной платы бы­ло бы равно среднему. Обратите внимание, что не следует рассматривать струк­туру уровня заработной платы, которая получена исходя из среднего, в качестве индикатора типичной заработной платы (особенно, когда вы имеете дело с фон­дом заработной платы как части бюджета).

Похожие материалы

Информация о работе