. (2.6)
По аналогии с оценками и по усеченной совокупности могут быть найдены не только средние величины, но и другие характеристики статистической совокупности, например, меры вариации, мода, медиана.
Широкое распространение при определении устойчивых оценок получил также подход Хубера, при котором используется некоторая исходная величина k, определяемая с учетом степени «засорения» статистической совокупности (x) (см. параграф 2.4). Расчеты в этом случае повторяются (имеют итеративный характер) и в итоге приводят к наилучшим оценкам.
Оценка средней величины по методу Хубера производится по формуле
, (2.7)
где q — устойчивая оценка среднего значения; k — допустимая величина отклонения oт центра совокупности (определяется с учетом удельного веса грубых ошибок в совокупности данных (x)); n1 — численность группы наблюдений из совокупности, отличающихся наименьшими значениями xi < q– k, или значения в интервале (–¥; q– k); n2 — численность группы наблюдений из совокупности, отличающихся наибольшими значениями xi < q + k, или значения в интервале (q + k; ¥).
При расчетах по формуле (2.7) в качестве начальной оценки (q) может быть использована средняя арифметическая или медиана, рассчитанные по выборке. На каждой итерации производится разделение выборочной совокупности на три класса. В первый класс попадают значения признака, которые остаются без изменения . Во второй и третий классы (для xi > q + k и x< q– k) — «грубые ошибки». Причем они не исключаются из рассмотрения, а модифицируются — заменяются соответственно на величины (x –– k) и (xi +k). По исходным и модифицированным значениям при каждой итерации определяется новая оценка средней (q). Процесс продолжается до тех пор, пока все наблюдения не оказываются в интервале «истинных» значений .
В многомерном случае «засорением» совокупности данных уже будут не отдельные значения, а вектор значений, характеризующий аномальное наблюдение.
Чтобы проверить, является ли многомерное наблюдение аномальным, обычно используют расстояние Махаланобиса
, (2.8)
где — вектор значений признака у «подозреваемого» объекта; — вектор средних значений для многомерной совокупности данных; å — матрица ковариаций.
В этом случае критерий (F) для проверки гипотезы о существенности отклонения случайного вектора X строится следующим образом:
. (2.9)
Если при заданном уровне значимости и числе степеней свободы n1 = m и n2 = n – m- 1 окажется, что , то проверяемое наблюдение действительно признается аномальным. В противном случае, когда , отклонение проверяемого вектора от вектора средних значений считается приемлемым, а гипотеза о «засорении» совокупности отвергается.
К выявленным грубым ошибкам в многомерной совокупности можно применять уже известные для одномерного случая приемы обработки данных.
2.2. Примеры решения типовых задач
Таблица 2.1
Номер объекта |
Удельный вес сертифицированной продукции, % |
Рентабельность производства, % |
1 |
90,0 |
11,6 |
2 |
85,0 |
15,2 |
3 |
76,0 |
18,3 |
4 |
50,0 |
9,1 |
5 |
65,0 |
7,5 |
6 |
10,0 |
3,8 |
7 |
80,0 |
20,0 |
8 |
75,0 |
16,5 |
9 |
62,5 |
4,8 |
10 |
95,0 |
25,1 |
11 |
70,5 |
14,7 |
12 |
25,0 |
17,0 |
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.