Обобщающие показатели: интерпретация типических значений и перцентилей, страница 12

Если задано значение и необходимо найти его перцентильный ранг, необхо­димо поступать следующим образом:

1. Двигаясь по горизонтальной оси графика функции кумулятивного распределения, найдите задан­ное значение.

2. Двигайтесь вертикально вверх до пересечения с графиком функции кумулятивного распределения. Если вы попали на вертикальный участок, то переместитесь вверх на его середину.

3. Двигайтесь по горизонтали влево до пересечения с вертикальной осью, и вы получите перцентильный ранг.

В этом примере числу 4 соответствует 70-й перцентиль, так как перцентильный ранг этого значения расположен между 60 и 80% .

Нахождение перцентиля для заданного процента

1. Двигаясь по вертикальной оси графика функции кумулятивного распределения, найдите точку, со­ответствующую заданному проценту.

2. Двигайтесь вправо по горизонтали до пересечения с графиком функции кумулятивного распреде­ления. Если вы попали на горизонтальный участок, то переместитесь к его середине.

3. От этой точки двигайтесь вертикально вниз. Точка пересечения с горизонтальной осью даст значе­ние перцентиля.

В этом примере 44-му перцентилю соответствует число 3.

Для изображения данных вы можете выбрать любой из трех графиков: гистограмму, блочную диаграмму или график функции кумулятивного распределения. Все они отображают одну и ту же информацию (зна­чения данных), но в различном виде.

Областям высокой концентрации данных (т.е. тем, где находится большое количество значений) соответ­ствуют пики на гистограмме и крутая функция кумулятивного распределения. Обычно, как и в нашем случае, область высокой концентрации данных находится в середине. Областям низкой концентрации данных соответствуют низкие столбики на гистограмме и пологий участок кумулятивной кривой.

Блочная диаграмма содержит пять базовых показателей, которые можно увидеть и на функции кумуля­тивного распределения: наименьшее значение (для 0%), нижний квартиль (для 25%), медиана (для 50%), верхний квартиль (для 75%) и наибольшее значение (для 100%).

Резюме

Обобщение заключается в том, чтобы использовать один или несколько ото­бранных или рассчитанных значений для характеристики набора данных. При выполнении процедуры обобщения сначала следует описать основную структуру большинства значений данных, а затем все исключения или выбросы значений.

Среднее является наиболее часто используемым показателем типического значения в перечне значений данных. Вычисляют среднее путем сложения всех значений и деления полученной суммы на количество слагаемых.

Если речь идет о генеральной совокупности, то количество элементов принято обозначать N и значение среднего генеральной совокупности обозначать (m (гре­ческая буква "мю"). Среднее распределяет общую сумму значений равномерно между всеми наблюдениями, и использовать его целесообразно тогда, когда в данных отсутствуют экстремальные значения (выбросы) и общая сумма значений важна для анализа. Среднее вычисляют только для количественных данных.

Взвешенное среднее (средневзвешенное) похоже на среднее, однако этот по­казатель позволяет присвоить каждому элементу данных свой "вес" (характери­стику его важности). Это позволяет вычислять среднее в ситуациях, когда одни наблюдения более важны, чем другие, а значит, должны вносить больший вклад в результат.

Обычно веса выбирают так, чтобы их сумма была равна 1 (если это не так, то можно каждый вес разделить на общую сумму весов). Средневзвешенное можно вычислять только для количественных данных.

Медиана — это значение элемента, приходящееся на середину совокупности; половина элементов в наборе данных больше медианы,  а вторая половина - меньше. Ранги связывают числа 1, 2, 3,... n со значениями данных таким обра­зом, что наименьшее значение имеет ранг 1, следующее по величине значение - ранг 2 и т.д. до наибольшего значения, которое имеет ранг  п. Ранг медианы (1 + п)/2   показывает, сколько наблюдений следует отсчитать от наименьшего (или от наибольшего) значения, чтобы получить медиану. Если ранг медианы выражается не целым числом (например,  13,5 для п = 26), то усредняют два значения, расположенных по обе стороны от этого значения ранга (например, в нашем случае — значения с рангами 13 и 14). Медиану можно вычислить как для количественных, так и для порядковых данных (упорядоченных категорий).