Обобщающие показатели: интерпретация типических значений и перцентилей, страница 13

Медиана иначе, чем среднее, обобщает "типическое" значение. В то же время эти два значения близки между собой или совпадают, когда распределение сим­метрично (как, например, нормальное распределение). Если распределение асимметричное или содержит выбросы, то медиана и среднее могут различаться очень сильно.

Мода представляет собой наиболее распространенную категорию, т.е. такую, которая чаще других встречается в наборе данных. Моду можно вычислить для данных любого типа: количественных, порядковых и номинальных (неупорядо­ченных категорий). Для номинальных данных мода является единственной обобщающей характеристикой. Для количественных данных моду часто опреде­ляют как значение, соответствующее середине наивысшего столбика на гисто­грамме. Однако такое определение не совсем однозначно, поскольку середина столбика может зависеть от масштаба, в котором построена гистограмма.

Выбор обобщающей характеристики для конкретного набора данных необходи­мо осуществлять следующим образом.

Для номинальныхданных можно использо­вать только моду.

Для порядковыхданных можно использовать и моду, и медиа­ну; мода выражает наиболее часто встречающуюся категорию, а медиана указыва­ет категорию, расположенную в центре упорядоченного ряда значений.

Для количественныхданных можно использовать все три показателя. Если данные распределены приблизительно нормально, то значения всех трех показателей близки между собой и лучше всего использовать среднее. При асимметричном рас­пределении эти три показателя могут существенно отличаться. В целом хороший результат дает медиана, поскольку она менее чувствительна к наличию экстре­мальных значений в области длинного хвоста кривой распределения. Однако если важна общая сумма значений, то предпочтительнее использовать среднее.

Перцентили выражают ранги как проценты от 0 до 100%, а не как числа от 1 до п ; 0-й перцентиль соответствует наименьшему значению, 100-й перцентиль — наибольшему значению, 50-й — медиане и т.д. Отметим, что перцентиль измерен в тех же единицах, что и значения исходного набора данных (т.е. в дол­ларах, галлонах и т.п.). Перцентили можно использовать для определения зна­чения данных при заданном перцентильном ранге или, наоборот, для нахожде­ния перцентильного ранга по заданному значению.

Представляют также интерес экстремумы — наибольшее и наименьшеезначения данных. Квартили — это 25-й и 75-й перцентили.

Пять базовых показателей набора данных включают наименьшее и наиболь­шее значения, нижний и верхний квартили и медиану. На блочной диаграм­ме эти пять показателей изображены в графической форме. Выбросы определяют как такие точки данных (если они есть), значения которых лежат далеко от тех значений, которые находятся в средней части набора данных. Подробная блочная диаграмма содержит значения выбросов с соответствующими метками, а также наиболее экстремальные из тех наблюдений, которые не являются вы­бросами. Для сравнения нескольких наборов данных, измеренных в одинаковых единицах, можно, используя один масштаб для каждого из них, построить блоч­ную диаграмму и расположить эти диаграммы на одном рисунке.

Функция кумулятивного распределения данных представляется в виде гра­фика, который показывает перцентили путем установления соответствия между данными и процентами. Этот график имеет вертикальный скачок величиной 1/п для каждого из пзначений данных. Зная процент, можно найти перцентиль, двигаясь по графику вправо, а затем вниз. Зная значение, можно опреде­лить перцентильный ранг (процент), двигаясь по графику вверх и затем влево. Таким образом, функция кумулятивного распределения отражает перцентили и позволяет их вычислить. Это единственная графическая форма представления данных, которая "архивирует" данные, сохраняя достаточно информации для восстановления всех значений набора данных. Функция кумулятивного распре­деления круто растет в областях высокой концентрации данных (там, где высо­кие столбики на гистограмме).