Перцентили используют для двух целей.
1. Чтобы показать значение элемента в данных при заданном перцентильном ранге (например, "10-й перцентиль равен $156293 ").
2. Чтобы показать перцентильный ранг значения данного элемента в наборе данных (например, "эффективность продаж агента по сбыту (Джона) составляет $296 994, что соответствует 55-му перцентилю").
Экстремумы, квартили и блочные диаграммы
Перцентили играют важную роль в качестве опорных характеристик. Чтобы обобщить основные черты распределения, достаточно нескольких значений перцентилей. Так, 50-й перцентиль — это медиана, поскольку 50-й перцентиль находится посередине между наибольшим и наименьшим значениями ряда. Интерес представляют экстремумы — наибольшееи наименьшее значения данных, т.е. 0-й и 100-й перцентили соответственно. Дополняют набор базовых характеристик квартили, определяемые как 25-й и 75-й перцентили.
Удивительно, но статистики до сих пор спорят относительно точного определения квартилей, поскольку их можно вычислять разными способами. Идея квартилей понятна. Квартили — это значения ранжированного ряда, которые находятся на расстоянии одной четвертой на пути от наименьшего и наибольшего значений. Однако эта формулировка не указывает точно, как вычислять квартили. Джон Тьюки, один из создателей практического анализа данных, определяет квартили таким образом:
1. Вычисляем ранг медианы по формуле (1 + п)/2 и отбрасываем дробную часть. Например, при п = 13 получаем (1 + 13)/2 = 7. При п = 24 отбрасываем дробную часть у (1 + 24)/2 = 12,5 и получаем 12.
2. Добавляем к полученному значению 1 и делим на 2. Полученное значение представляет собой ранг нижнего квартиля. Например, при п = 13 ранг нижнего квартиля равен (1 + 7)/2 = 4. При п = 24 ранг нижнего квартиля равен (1 + 12)/2 = 6,5, что свидетельствует о необходимости усреднить значения с рангами 6 и 7.
3. Отнимаем полученное значение от (п + 1). Результатом будет ранг верхнего квартиля. Например, при п = 13 получим (13 + 1) - 4 = 10. При п = 24 получаем (1 + 24) - 6,5 = 18,5, что свидетельствует о необходимости усреднить значения с рангами 18 и 19.
Значения квартилей находят исходя из этих рангов. Ниже приведена общая формула определения рангов квартилей, которая представляет указанные выше шаги вычислений.
Ранги квартилей
Ранг нижнего квартиля = {l + int[(1 + п)/2]}/2 ;
Ранг верхнего квартиля = п + 1 - Ранг нижнего квартиля,
где int означает функцию взятия целого, которая отбрасывает дробную часть числа.
Пять базовых показателей включают наименьшее значение, нижний квартиль, медиану, верхний квартиль, наибольшее значение.
Пять базовых показателей
Наименьшее значение данных (0-й перцентиль).
Нижний квартиль (25-й перцентиль, на четверть расстояния от наименьшего значения).
Медиана (50-й перцентиль, середина).
Верхний квартиль (75-й перцентиль, на три четверти расстояния от наименьшего значения или на четверть расстояния от наибольшего значения).
Наибольшее значение (100-й перцентиль).
Вместе эти характеристики дают достаточно ясное представление об особенностях еще не обработанного набора данных. Два экстремума характеризуют размах (диапазон) данных, медиана показывает центр, два квартиля определяют границы, "расположенной в центре половины данных", а положение медианы относительно квартилей дает грубое представление о наличии или отсутствии асимметрии.
Блочная диаграмма - это изображение всех пяти указанных показателей.
Наименьшее значение |
Нижний квартиль |
Медиана |
Верхний квартиль |
Наибольшее значение |
Блочная диаграмма, как и гистограмма, дает визуальное представление о распределении, но использует иной способ графического отображения. Блочная диаграмма не содержит мелких деталей, что позволяет охватить всю картину в целом и сравнивать несколько групп чисел, не вдаваясь в детали каждой из групп. При необходимости подробно рассмотреть форму распределения лучше использовать гистограмму.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.