Обобщающие показатели: интерпретация типических значений и перцентилей, страница 11

Подробная блочная диаграмма — это блочная диаграмма, которая также со­держит помеченные метками выбросы (метки также используют для показа экс­тремальных наблюдений, не являющихся выбросами). Метки выделяют те на­блюдения, которые требуют особого внимания. При создании подробной блочной диаграммы выбросы определяют как те значения данных (если они есть), кото­рые расположены далеко от центра распределения. В частности, большое значе­ние в наборе данных рассматривается как выброс, если оно превышает:

верхний квартиль + 1,5 * (верхний квартиль - нижний квартиль).

Малое значение в наборе данных рассматривается как выброс, если оно меньше, чем

нижний квартиль - 1,5 * (верхний квартиль - нижний квартиль).

Так выбросы определяет Тьюки. В дополнение к нанесению на диаграмму выбросов с соответствующими метками можно также отметить экстремальные значения, которые выбросами не являются (по одному с каждой стороны), по­скольку часто они также заслуживают особого внимания.

Одно из преимуществ блочных диаграмм заключается в том, что они позволяют сконцентрировать вни­мание на основных особенностях нескольких наборов данных одновременно, не отвлекаясь на детали.

Есть смысл тратить время и энергию на построение подробной блочной диа­граммы (с показом отдельных выбросов), только если это дает действительно необходимую дополнитель­ную информацию. Разумно сначала быстро нанести на диаграмму пять базовых показа­телей, а затем уже решать, стоит ли тратить время и усилия на дополнительные подробности. Конечно, если построение диаграммы выполняется с помощью компьютера, всегда (или почти всегда) следует от­давать предпочтение подробной блочной диаграмме.

Функция кумулятивного распределения показывает перцентили

Функция кумулятивного распределения данных представляется в виде гра­фика, который показывает перцентили путем установления соответствия между данными и процентами. Поскольку на вертикальной оси откладываются процен­ты от 0% до 100%, а на горизонтальной — сами перцентили (т.е. значения дан­ных), то, используя этот график, можно легко находить либо значение перцентиля при заданном значении процента, либо значение процента, соответствую­щее определенному значению данных.

Функция кумулятивного распределения состоит из вертикальных скачков высотой 1/п для каждого из п значений данных и горизонтальных отрезков, соединяющих точки значений данных. На рис. 4.2.1 показана функция кумуля­тивного распределения для небольшого набора данных, состоящего из п = 5 зна­чений (1, 4, 3, 7, 3), одно из которых (3) встречается дважды.

100%

7

80%

70%

4

 

60%

50%

3

40%

 

30%

3

20%

10%

1

0%

1

2

3

4

5

6

7

8

9

10

11

12

Рис. 4.2.1. Функция кумулятивного распределения для набора данных 1, 4, 3, 7, 3. Обратите внимание на скачок высотой 1 / n = 20% для каждого значения данных и двойной скачок в точке 3 (поскольку это значение встречается дважды)