Обобщающие показатели: интерпретация типических значений и перцентилей, страница 7

А, С, Е, F, С, С, D, С, А, Е, Е,....

Этот набор данных является порядковым, поскольку для категорий существует естественный порядок — порядок прохождения изделия через все стадии производственного процесса от начала сборки до за­вершения. Такой набор данных можно представить в виде списка частот следующего вида.

Стадия производства

Количество компьютерных системных блоков

А

57

В

38

С

86

D

45

Е

119

F

42

Итого

387

Поскольку это порядковые данные, для них можно вычислить медиану, но не среднее. Медианой будет системный блок с рангом (1 + 387)/2 = 194 в списке всех системных блоков, упорядоченных в соответст­вии со стадией производства. Ниже показан способ определения медианы.

Блоки с рангами от 1 до 57 находятся на стадии А. Таким образом, медиана (которая имеет ранг 194) находится за пределами стадии А.

Блоки с рангами от 58 (57 + 1) до 95 (57 + 38) находятся на стадии В. Значит, медиана находится за пределами стадии В.

Блоки с рангами от 96 (95 + 1) до 181 (95 + 86) находятся на стадии С. Следовательно, медиана находится за пределами стадии С.

Блоки с рангами от 182 (181 + 1) до 226 (181 + 45) находятся на стадии D. Таким обра­зом, медиана находится на стадии D, поскольку ранг медианы (194) лежит между ранга­ми 182 и 226.

Таким образом, около половины системных блоков находятся на стадиях, предшествующих стадии D, и при­мерно половина — на стадиях, следующих за стадией D. Поэтому стадия D является средней точкой (с точки зрения готовности сборки) для всех системных блоков, находящихся в настоящий момент в производстве.

Мода: типическое значение даже для номинальных данных

Мода представляет собой наиболее распространенную категорию, т.е. катего­рию, которая чаще всего встречается в наборе данных. Это единственная харак­теристика, которую можно определить для номинальных качественных данных, поскольку неупорядоченные категории нельзя складывать (как это требуется для среднего) и нельзя ранжировать (как это требуется для медианы). Моду можно легко найти для порядковых данных, если просто проигнорировать упорядочен­ность категорий и выполнять все действия так же, как для набора номинальных данных с неупорядоченными категориями.

Мода также определена для количественных данных (чисел), хотя при этом может иметь место некоторая неопределенность. Для количественных данных моду можно определить как значение, соответствующее наивысшей точке на гистограмме, возможно, на середине самого высокого столбика. Источники не­определенности могут быть разными. На гистограмме может быть два "самых высоких" столбика. Или, что значительно хуже, определение моды может зави­сеть от того, каким образом построена диаграмма: изменение ширины столбиков и их расположения может привести к небольшим (или умеренным) изменениям формы распределения, в результате чего может измениться и мода. Для количе­ственных данных мода является несколько неопределенным понятием.

Моду найти легко. Независимо от того, представляют имеющиеся у вас числа количество объектов в каждой категории или соответствующие проценты, необхо­димо просто выбрать категорию с самым большим количеством или процентом. Если на первое место претендуют две или больше категорий, то необходимо ука­зать все эти категории под общим названием "мода" для этого набора данных.

Пример. Голосование на выборах

Поскольку во время выборов подсчитывают количество отданных голосов, то эти голоса можно рассмат­ривать как набор номинальных качественных данных. У вас может быть свое мнение относительно упоря­дочения кандидатов, но так как общего согласия в этом вопросе нет, то вы можете считать этот набор данных неупорядоченным. Список данных может выглядеть так:

Смит, Джонс, Баттерсвоурт, Смит, Смит, Баттерсвоурт, Смит... Результаты выборов можно записать следующим образом.