Обобщающие показатели: интерпретация типических значений и перцентилей, страница 7

А, С, Е, F, С, С, D, С, А, Е, Е,....

Этот набор данных является порядковым, поскольку для категорий существует естественный порядок — порядок прохождения изделия через все стадии производственного процесса от начала сборки до завершения. Такой набор данных можно представить в виде списка частот следующего вида.

Стадия производства	Количество компьютерных системных блоков
А	57
В	38
С	86
D	45
Е	119
F	42
Итого	387

Поскольку это порядковые данные, для них можно вычислить медиану, но не среднее. Медианой будет системный блок с рангом (1 + 387)/2 = 194 в списке всех системных блоков, упорядоченных в соответствии со стадией производства. Ниже показан способ определения медианы.

Блоки с рангами от 1 до 57 находятся на стадии А. Таким образом, медиана (которая имеет ранг 194) находится за пределами стадии А.

Блоки с рангами от 58 (57 + 1) до 95 (57 + 38) находятся на стадии В. Значит, медиана находится за пределами стадии В.

Блоки с рангами от 96 (95 + 1) до 181 (95 + 86) находятся на стадии С. Следовательно, медиана находится за пределами стадии С.

Блоки с рангами от 182 (181 + 1) до 226 (181 + 45) находятся на стадии D. Таким образом, медиана находится на стадии D, поскольку ранг медианы (194) лежит между рангами 182 и 226.

Таким образом, около половины системных блоков находятся на стадиях, предшествующих стадии D, и примерно половина — на стадиях, следующих за стадией D. Поэтому стадия D является средней точкой (с точки зрения готовности сборки) для всех системных блоков, находящихся в настоящий момент в производстве.

Мода: типическое значение даже для номинальных данных

Мода представляет собой наиболее распространенную категорию, т.е. категорию, которая чаще всего встречается в наборе данных. Это единственная характеристика, которую можно определить для номинальных качественных данных, поскольку неупорядоченные категории нельзя складывать (как это требуется для среднего) и нельзя ранжировать (как это требуется для медианы). Моду можно легко найти для порядковых данных, если просто проигнорировать упорядоченность категорий и выполнять все действия так же, как для набора номинальных данных с неупорядоченными категориями.

Мода также определена для количественных данных (чисел), хотя при этом может иметь место некоторая неопределенность. Для количественных данных моду можно определить как значение, соответствующее наивысшей точке на гистограмме, возможно, на середине самого высокого столбика. Источники неопределенности могут быть разными. На гистограмме может быть два "самых высоких" столбика. Или, что значительно хуже, определение моды может зависеть от того, каким образом построена диаграмма: изменение ширины столбиков и их расположения может привести к небольшим (или умеренным) изменениям формы распределения, в результате чего может измениться и мода. Для количественных данных мода является несколько неопределенным понятием.

Моду найти легко. Независимо от того, представляют имеющиеся у вас числа количество объектов в каждой категории или соответствующие проценты, необходимо просто выбрать категорию с самым большим количеством или процентом. Если на первое место претендуют две или больше категорий, то необходимо указать все эти категории под общим названием "мода" для этого набора данных.

Пример. Голосование на выборах

Поскольку во время выборов подсчитывают количество отданных голосов, то эти голоса можно рассматривать как набор номинальных качественных данных. У вас может быть свое мнение относительно упорядочения кандидатов, но так как общего согласия в этом вопросе нет, то вы можете считать этот набор данных неупорядоченным. Список данных может выглядеть так:

Смит, Джонс, Баттерсвоурт, Смит, Смит, Баттерсвоурт, Смит... Результаты выборов можно записать следующим образом.

1 2 3 4 5 6 7 8 9 10 11 12 13

Скачать файл