Медиана иначе, чем среднее, обобщает "типическое" значение. В то же время эти два значения близки между собой или совпадают, когда распределение симметрично (как, например, нормальное распределение). Если распределение асимметричное или содержит выбросы, то медиана и среднее могут различаться очень сильно.
Мода представляет собой наиболее распространенную категорию, т.е. такую, которая чаще других встречается в наборе данных. Моду можно вычислить для данных любого типа: количественных, порядковых и номинальных (неупорядоченных категорий). Для номинальных данных мода является единственной обобщающей характеристикой. Для количественных данных моду часто определяют как значение, соответствующее середине наивысшего столбика на гистограмме. Однако такое определение не совсем однозначно, поскольку середина столбика может зависеть от масштаба, в котором построена гистограмма.
Выбор обобщающей характеристики для конкретного набора данных необходимо осуществлять следующим образом.
Для номинальныхданных можно использовать только моду.
Для порядковыхданных можно использовать и моду, и медиану; мода выражает наиболее часто встречающуюся категорию, а медиана указывает категорию, расположенную в центре упорядоченного ряда значений.
Для количественныхданных можно использовать все три показателя. Если данные распределены приблизительно нормально, то значения всех трех показателей близки между собой и лучше всего использовать среднее. При асимметричном распределении эти три показателя могут существенно отличаться. В целом хороший результат дает медиана, поскольку она менее чувствительна к наличию экстремальных значений в области длинного хвоста кривой распределения. Однако если важна общая сумма значений, то предпочтительнее использовать среднее.
Перцентили выражают ранги как проценты от 0 до 100%, а не как числа от 1 до п ; 0-й перцентиль соответствует наименьшему значению, 100-й перцентиль — наибольшему значению, 50-й — медиане и т.д. Отметим, что перцентиль измерен в тех же единицах, что и значения исходного набора данных (т.е. в долларах, галлонах и т.п.). Перцентили можно использовать для определения значения данных при заданном перцентильном ранге или, наоборот, для нахождения перцентильного ранга по заданному значению.
Представляют также интерес экстремумы — наибольшее и наименьшеезначения данных. Квартили — это 25-й и 75-й перцентили.
Пять базовых показателей набора данных включают наименьшее и наибольшее значения, нижний и верхний квартили и медиану. На блочной диаграмме эти пять показателей изображены в графической форме. Выбросы определяют как такие точки данных (если они есть), значения которых лежат далеко от тех значений, которые находятся в средней части набора данных. Подробная блочная диаграмма содержит значения выбросов с соответствующими метками, а также наиболее экстремальные из тех наблюдений, которые не являются выбросами. Для сравнения нескольких наборов данных, измеренных в одинаковых единицах, можно, используя один масштаб для каждого из них, построить блочную диаграмму и расположить эти диаграммы на одном рисунке.
Функция кумулятивного распределения данных представляется в виде графика, который показывает перцентили путем установления соответствия между данными и процентами. Этот график имеет вертикальный скачок величиной 1/п для каждого из пзначений данных. Зная процент, можно найти перцентиль, двигаясь по графику вправо, а затем вниз. Зная значение, можно определить перцентильный ранг (процент), двигаясь по графику вверх и затем влево. Таким образом, функция кумулятивного распределения отражает перцентили и позволяет их вычислить. Это единственная графическая форма представления данных, которая "архивирует" данные, сохраняя достаточно информации для восстановления всех значений набора данных. Функция кумулятивного распределения круто растет в областях высокой концентрации данных (там, где высокие столбики на гистограмме).
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.