Подробная блочная диаграмма — это блочная диаграмма, которая также содержит помеченные метками выбросы (метки также используют для показа экстремальных наблюдений, не являющихся выбросами). Метки выделяют те наблюдения, которые требуют особого внимания. При создании подробной блочной диаграммы выбросы определяют как те значения данных (если они есть), которые расположены далеко от центра распределения. В частности, большое значение в наборе данных рассматривается как выброс, если оно превышает:
верхний квартиль + 1,5 * (верхний квартиль - нижний квартиль).
Малое значение в наборе данных рассматривается как выброс, если оно меньше, чем
нижний квартиль - 1,5 * (верхний квартиль - нижний квартиль).
Так выбросы определяет Тьюки. В дополнение к нанесению на диаграмму выбросов с соответствующими метками можно также отметить экстремальные значения, которые выбросами не являются (по одному с каждой стороны), поскольку часто они также заслуживают особого внимания.
Одно из преимуществ блочных диаграмм заключается в том, что они позволяют сконцентрировать внимание на основных особенностях нескольких наборов данных одновременно, не отвлекаясь на детали.
Есть смысл тратить время и энергию на построение подробной блочной диаграммы (с показом отдельных выбросов), только если это дает действительно необходимую дополнительную информацию. Разумно сначала быстро нанести на диаграмму пять базовых показателей, а затем уже решать, стоит ли тратить время и усилия на дополнительные подробности. Конечно, если построение диаграммы выполняется с помощью компьютера, всегда (или почти всегда) следует отдавать предпочтение подробной блочной диаграмме.
Функция кумулятивного распределения показывает перцентили
Функция кумулятивного распределения данных представляется в виде графика, который показывает перцентили путем установления соответствия между данными и процентами. Поскольку на вертикальной оси откладываются проценты от 0% до 100%, а на горизонтальной — сами перцентили (т.е. значения данных), то, используя этот график, можно легко находить либо значение перцентиля при заданном значении процента, либо значение процента, соответствующее определенному значению данных.
Функция кумулятивного распределения состоит из вертикальных скачков высотой 1/п для каждого из п значений данных и горизонтальных отрезков, соединяющих точки значений данных. На рис. 4.2.1 показана функция кумулятивного распределения для небольшого набора данных, состоящего из п = 5 значений (1, 4, 3, 7, 3), одно из которых (3) встречается дважды.
100% |
7 |
|||||||||||
80% |
||||||||||||
70% |
4 |
|
||||||||||
60% |
||||||||||||
50% |
3 |
|||||||||||
40% |
|
|||||||||||
30% |
3 |
|||||||||||
20% |
||||||||||||
10% |
1 |
|||||||||||
0% |
||||||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
Рис. 4.2.1. Функция кумулятивного распределения для набора данных 1, 4, 3, 7, 3. Обратите внимание на скачок высотой 1 / n = 20% для каждого значения данных и двойной скачок в точке 3 (поскольку это значение встречается дважды)
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.