Обобщающие показатели: интерпретация типических значений и перцентилей, страница 10

Перцентили используют для двух целей.

1. Чтобы показать значение элемента в данных при заданном перцентильном ранге (например, "10-й перцентиль равен $156293 ").

2. Чтобы показать перцентильный ранг значения данного элемента в наборе данных (например,  "эффективность продаж агента по сбыту (Джона) со­ставляет $296 994, что соответствует 55-му перцентилю").

Экстремумы, квартили и блочные диаграммы

Перцентили играют важную роль в качестве опорных характеристик. Чтобы обобщить основные черты распределения, достаточно нескольких значений перцентилей. Так, 50-й перцентиль — это медиана, поскольку 50-й перцентиль на­ходится посередине между наибольшим и наименьшим значениями ряда. Инте­рес представляют экстремумы — наибольшееи наименьшее значения данных, т.е. 0-й и 100-й перцентили соответственно. Дополняют набор базовых характе­ристик квартили, определяемые как 25-й и 75-й перцентили.

Удивительно, но статистики до сих пор спорят относительно точного опреде­ления квартилей, поскольку их можно вычислять разными способами. Идея квартилей понятна. Квартили — это значения ранжированного ряда, которые находятся на расстоянии одной четвертой на пути от наименьшего и наибольше­го значений. Однако эта формулировка не указывает точно, как вычислять квартили. Джон Тьюки, один из создателей практического анализа данных, опреде­ляет квартили таким образом:

1. Вычисляем ранг медианы по формуле  (1 + п)/2   и отбрасываем дробную часть. Например, при п = 13 получаем (1 + 13)/2 = 7. При п = 24 отбрасы­ваем дробную часть у (1 + 24)/2 = 12,5 и получаем 12.

2. Добавляем к полученному значению 1 и делим на 2. Полученное значение представляет собой ранг нижнего квартиля. Например, при   п = 13 ранг нижнего квартиля равен (1 + 7)/2 = 4. При п = 24 ранг нижнего квартиля равен (1 +  12)/2 = 6,5, что свидетельствует о необходимости усреднить значения с рангами 6 и 7.

3. Отнимаем полученное значение от (п + 1). Результатом будет ранг верхнего квартиля. Например, при  п = 13 получим (13 + 1) - 4 = 10. При п = 24 получаем (1 + 24) - 6,5 = 18,5, что свидетельствует о необходимости ус­реднить значения с рангами 18 и 19.

Значения квартилей находят исходя из этих рангов. Ниже приведена общая формула определения рангов квартилей, которая представляет указанные выше шаги вычислений.

Ранги квартилей

Ранг нижнего квартиля = {l + int[(1 + п)/2]}/2 ;

Ранг верхнего квартиля = п + 1 - Ранг нижнего квартиля,

где int означает функцию взятия целого, которая отбрасывает дробную часть числа.

Пять базовых показателей включают наименьшее значение, нижний квар­тиль, медиану, верхний квартиль, наибольшее значение.

Пять базовых показателей

Наименьшее значение данных (0-й перцентиль).

Нижний квартиль (25-й перцентиль, на четверть расстояния от наименьшего значения).

Медиана (50-й перцентиль, середина).

Верхний квартиль (75-й перцентиль, на три четверти расстояния от наименьшего значения или на чет­верть расстояния от наибольшего значения).

Наибольшее значение (100-й перцентиль).

Вместе эти характеристики дают достаточно ясное представление об особенно­стях еще не обработанного набора данных. Два экстремума характеризуют размах (диапазон) данных, медиана показывает центр, два квартиля определяют границы, "расположенной в центре половины данных", а положение медианы относительно квартилей дает грубое представление о наличии или отсутствии асимметрии.

Блочная диаграмма - это изображение всех пяти указанных показателей.

Наименьшее значение

Нижний квартиль

Медиана

Верхний квартиль

Наибольшее значение

Блочная диаграмма, как и гистограмма, дает визуальное представление о распределении, но использует иной способ графического отображения. Блочная диаграмма не содержит мелких деталей, что позволяет охватить всю картину в целом и сравнивать несколько групп чисел, не вдаваясь в детали каждой из групп. При необходимости подробно рассмотреть форму распределения лучше использовать гистограмму.