Метод разделения смеси наблюдений

Страницы работы

Содержание работы

Приложение.  Метод разделения смеси наблюдений.

      Пусть на рынке в каждый торговый день t контролируется n показателей x1(t), x2(t), ... , xn(t), которые удобно представить в виде n-мерного вектора x(t). Предполагается, что вектор x(t) подчиняется многомерному нормальному распределению, характеризуемому вектором математического ожидания xср(t) и ковариационной матрицей С. В разные торговые дни эти параметры могут быть разными. Принимается допущение, что эти параметры могут принимать только два возможных значения и, следовательно, каждый вектор x(t) может подчиняться нормальному закону либо f1(x) с параметрами x1ср, C1 (наблюдение  класса K1), либо f2(x) с параметрами x2ср, C2 (наблюдение класса K2).

      Если собрать наблюдения x(t1), x(t2), ... , x(tm) на некотором интервале времени [t1,tm], то среди них будут находиться векторы разных классов. Можно рассмотреть частости представительства разных классов в этой выборке.  В пределе эти частости стремятся к вероятностям P1, P2 (P1 + P2 = 1), задающими смесь распределений вероятностей наблюдений

                 f(x) = P1* f1(x) + P2* f2(x) .

Таким образом, общее распределение полученной совокупности наблюдений представляется функцией f(x), которая полностью характеризуется параметрами x1ср, C1, x2ср, C2, P1 (с учетом симметричности матриц - всего n2+3n+1 параметр). Цель обработки данных состоит в получении оценок этих параметров по наблюдениям

Для упрощения задачи принимаются следующие допущения:

1)  вектор математических ожиданий одинаков для обоих нормальных распределений

               x1ср = x2ср = xср ,

2) ковариационные матрицы пропорциональны с коэффициентом a

              C2 = a*C1 .

Обозначим через C ковариационную матрицу распределения f(x), которая связана с C1 и C2 соотношениями

C1 = [P1 + a * (1-P1)]-1 * C ,      C2 = a * [P1 + a * (1-P1)]-1 * C .

Обозначим

            h = P1 + a * (1-P1) .

Определители матриц C1 и C2 связаны с определителем матрицы C соотношениями

            d1 = [P1 + a * (1-P1)]-n * d ,        d2 = an * [P1 +a * (1-P1)]-n * d .

При этом закон распределения характеризуется параметрами xср, C , a, P1  (всего 0.5*(n2+3n+4) параметров, то есть примерно вдвое меньше, чем раньше).

Параметры xср, C легко рассчитываются по всем наблюдениям на заданном интервале наблюдений [t1,tm]. Для нахождения двух оставшихся скалярных параметров a и P1 используем метод максимального правдоподобия.

    Пусть общее число наблюдений на рассматриваемом интервале равно m.  Считая эти наблюдения статистически независимыми, запишем вероятность получения данной совокупности наблюдений

                                                        m 

              P(x(t1), x(t2), ... , x(tm)) =    Õ  f(x(tj)) =

                                                       j=1

                                         m

 = (2p)-mn/2 *d-m/2 * h-m/n2  *  Õ [ P1 * exp{-h/2 * (x(tj)-xср)T C-1 (x(tj)-xср )} + 

                                        j=1

                 + (1-P1) * an * exp{-h/(2*a) * (x(tj)-xср)TC-1(x(tj)-xср ) }].

   Как обычно, вместо вероятности P(x(t1), x(t2), ... , x(tm)) рассмотрим ее логарифм

  ln[ P(x(t1), x(t2), ... , x(tm)) ] = m/2 * ln[(2p)n*d]- mn/2 * ln[h] +

      m

  +  å ln[ P1 * exp{-h/2 * (x(tj)-xср)TC-1(x(tj)-xср ) +

      j=1

  + (1-P1) * an * exp{-h/(2*a) * (x(tj)-xср)TC-1(x(tj)-xср ) }] ,       

который зависит от наблюдений, вектора средних значений, ковариационной матрицы и параметров смеси  a и P1. Отметим, что первое слагаемое не зависит от a и P1 . Оценки этих параметров в соответствии с методом максимального правдоподобия находятся из решения экстремальной задачи

     (a, P1)опт = Arg    Max  ln[ P(x(t1), x(t2), ... , x(tm)) ] .

                              (a, P1)

Поскольку матрица C - общая, то она вычисляется только один раз и ее обращение также производится однократно. Заметим также, что квадратичная форма

               z = (x(tj)-xср)TC-1(x(tj)-xср ),

входящая в выражение для расчета, называется дискриминантной функцией для смешанных наблюдений.

      После нахождения параметров (a, P1) и с использованием ранее рассчитанных оценок xср  и C по приведенным выше формулам рассчитываются оценки матриц C1 и C2. Таким образом, найдены оценки всех параметров смеси распределений и задача обработки данных решена.

Похожие материалы

Информация о работе