.
(2.6)
По аналогии с оценками и
по усеченной
совокупности могут быть найдены не только средние величины, но и другие
характеристики статистической совокупности, например, меры вариации, мода, медиана.
Широкое распространение при определении устойчивых оценок получил также подход Хубера, при котором используется некоторая исходная величина k, определяемая с учетом степени «засорения» статистической совокупности (x) (см. параграф 2.4). Расчеты в этом случае повторяются (имеют итеративный характер) и в итоге приводят к наилучшим оценкам.
Оценка средней величины по методу Хубера производится по формуле
,
(2.7)
где q — устойчивая оценка среднего значения; k — допустимая величина отклонения oт центра совокупности (определяется с учетом удельного веса грубых ошибок в совокупности данных (x)); n1 — численность группы наблюдений из совокупности, отличающихся наименьшими значениями xi < q– k, или значения в интервале (–¥; q– k); n2 — численность группы наблюдений из совокупности, отличающихся наибольшими значениями xi < q + k, или значения в интервале (q + k; ¥).
При расчетах по формуле (2.7) в качестве начальной
оценки (q) может быть использована средняя арифметическая или
медиана, рассчитанные по выборке. На каждой итерации производится разделение
выборочной совокупности на три класса. В первый класс попадают значения
признака, которые остаются без изменения . Во второй и третий
классы (для xi > q + k и x< q– k) — «грубые
ошибки». Причем они не исключаются из рассмотрения, а модифицируются — заменяются
соответственно на величины (x –– k) и (xi +k). По исходным и
модифицированным значениям при каждой итерации определяется новая оценка средней
(q). Процесс продолжается до тех пор, пока все наблюдения не оказываются
в интервале «истинных» значений
.
В многомерном случае «засорением» совокупности данных уже будут не отдельные значения, а вектор значений, характеризующий аномальное наблюдение.
Чтобы проверить, является ли многомерное наблюдение аномальным, обычно используют расстояние Махаланобиса
,
(2.8)
где — вектор значений
признака у «подозреваемого» объекта;
—
вектор средних значений для многомерной совокупности данных; å — матрица ковариаций.
В этом случае критерий (F) для проверки гипотезы о существенности отклонения случайного вектора X строится следующим образом:
.
(2.9)
Если при заданном уровне значимости и числе степеней свободы
n1 = m и n2 = n –
m- 1 окажется, что
, то проверяемое
наблюдение действительно признается аномальным. В противном случае, когда
, отклонение проверяемого
вектора от вектора средних значений считается приемлемым, а гипотеза о
«засорении» совокупности отвергается.
К выявленным грубым ошибкам в многомерной совокупности можно применять уже известные для одномерного случая приемы обработки данных.
2.2. Примеры решения типовых задач
Таблица 2.1
Номер объекта |
Удельный вес сертифицированной продукции, % |
Рентабельность производства, % |
1 |
90,0 |
11,6 |
2 |
85,0 |
15,2 |
3 |
76,0 |
18,3 |
4 |
50,0 |
9,1 |
5 |
65,0 |
7,5 |
6 |
10,0 |
3,8 |
7 |
80,0 |
20,0 |
8 |
75,0 |
16,5 |
9 |
62,5 |
4,8 |
10 |
95,0 |
25,1 |
11 |
70,5 |
14,7 |
12 |
25,0 |
17,0 |
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.