Обобщающие показатели: интерпретация типических значений и перцентилей, страница 9

В рассмотренном примере стадия Е — это установка материнской платы в системный блок. Наличие большого количества системных блоков на этой стадии может быть связано с большей трудоемкостью данной операции. Но, с другой стороны, это может быть и свидетельством наличия проблем у служащих, работающих на этой стадии (возможно, причина в недостаточном количестве людей или большом коли­честве отсутствующих работников). В таком случае руководству необходимо обратить на это внимание.

Какие показатели нужно использовать

Какой их трех показателей (среднее, медиану или моду) следует использовать в конкретных обстоятельствах? Есть два вида ответов. Первый зависит от того, что можно вычислить, а второй зависит от того, какой из показателей более полезен.

Моду можно вычислить для любого одномерного набора данных (хотя в случае количественных данных проблемой может быть некоторая неопределенность). Среднее можно вычислить только для количественных данных (чисел), а медиа­ну — для всех типов данных, кроме номинальных (неупорядоченных категорий). Таким образом, ваш выбор ограничен, а в случае номинальных данных у вас во­обще нет другого выбора, кроме как использовать моду. Рекомендации по выбору характеристики в зависимости от типа данных можно представить таким образом.

Количественные

Порядковые

Номинальные

Среднее

Да

Медиана

Да

Да

Мода

Да

Да

Да

В случае количественных данных, для которых можно вычислить все три ха­рактеристики, насколько они отличаются между собой? Если распределение близко к нормальному, разница невелика, поскольку каждая из характеристик стремится к четко выраженной середине кривой нормального рас­пределения.

Однако в случае асимметричного распределения данных эти характеристики могут заметно различаться.

Среднее следует использовать, когда набор данных распределен нормально (по крайней мере приблизительно), поскольку в этом случае среднее является самой эффективной характеристикой. Среднее также следует вычислять и в тех ситуа­циях, где необходимо сохранить или предсказать общую сумму значений дан­ных, так как другие характеристики не позволяют это сделать.

Медиана служит хорошей характеристикой асимметричного распределения, поскольку на него не влияет небольшое число данных с высокими значениями. В случае сильной асимметрии медиана значительно лучше среднего характеризу­ет большинство данных. Медиана также полезна при наличии выбросов значе­ний, так как она устойчива к их влиянию. Медиана полезна для порядковых данных (упорядоченные категории), хотя в зависимости от решаемого вопроса можно использовать и моду.

Моду используют при наличии номинальных данных, так как в этом случае нельзя вычислять среднее и медиану. Она также полезна для порядковых дан­ных, когда важно определить наиболее распространенную категорию.

Помимо рассмотренных существует много других характеристик. Перспектив­ным является использование так называемых "робастных" (устойчивых) оценок, которые сочетают в себе лучшие свойства среднего и медианы. Для нормально распределенных данных такие оценки представляют достаточно эффективный вы­бор и в то же время они, как и медиана, устойчивы к влиянию выбросов.

4.2. Что такое перцентиль

Перцентили — это характеристики набора данных, которые выражают ранги элементов в виде процентов от 0 до 100%, а не в виде чисел от 1 до п , таким образом, что наименьшему значению соответствует нулевой перцентиль, наи­большему — 100-й перцентиль, медиане — 50-й перцентиль и т.д. Перцентили можно рассматривать как показатели, разбивающие наборы количественных и порядковых данных на определенные части.

Обратите внимание, что перцентиль представляет собой имеющий определен­ный ранг элемент данных и выражен в тех же единицах, что и единицы набора данных. Например, 60-й перцентиль эффективности продаж может быть равен $385062 (измерен не в процентах, а в долларах, как и элементы набора дан­ных). Если этот 60-й перцентиль, равный $385062, характеризует деятельность определенного агента по продажам (например, Мари), то это означает, что при­близительно 60% других агентов имеют результаты ниже, чем у Мари, а 40% агентов имеют более высокие результаты.