Марковские модели принятия решений, страница 2

Каждый год в начале сезона садовник проводит химический анализ почвы на своем участке и по его результатам оценивает продуктивность сада на новый сезон (см. таблицу 1). По результатам многолетних наблюдений садовник установил, что продуктивность сада в текущем году главным образом зависит от продуктивности сада в прошлом году.

Таблица 1

Состояние системы

Продуктивность сада (состояние почвы)

S1

Хорошая

S2

Удовлетворительная

S3

Плохая

Пусть задана матрица переходных вероятностей, которая является постоянной:

Следует напомнить, что матрица задает вероятность перехода из j-го состояния системы (состояние в (i-1)-ом году) в k-ое (состояние в i–ом году). Например, если в прошлом году состояние почвы хорошее (S1), то вероятность того, что в этом году почва будет в плохом состоянии (S3) равна p13(i) = 0.3.

Садовник может принять решение о применении удобрений с целью повышения продуктивности сада («улучшения» вероятностей переходов). Если садовник решил использовать удобрения, то матрица переходных вероятностей изменится:

Матрица P2 показывает, что состояние почвы в среднем улучшится после применения удобрений. Таким образом, множество допустимых решений задачи G = {X1, X2}, где Х1 — оставить почву без изменений, Х2 — применение удобрений, а матрица переходных вероятностей равна:

Матрица дохода. Горизонты планирования

С переходом системы из одного состояния в другое связана матрица дохода  R(i|Xli-1) = (rjk(i|Xli-1)) Î Mm(R), в которой элемент rjk(i|Xli-1) — доход (положительное значение) или убыток (отрицательное значение) за i–ый этап. Доход (убыток) связан лишь с переходом системы из состояния Sj в состояние Sk при принятии решения Xli-1 Î G. Величина

определяет ожидаемый доход за i–ый этап, если после (i-1)-го этапа система находилась в состоянии Sj, и было принято решение Xli-1 Î G.

В качестве принципа оптимальности используется максимизация ожидаемого дохода за N этапов. При этом, если N конечно, то рассматривается задача с конечным горизонтом планирования, если N бесконечно, то рассматривается задача с бесконечным горизонтом планирования.

Пример

Для рассмотренной задачи с садовником можно взять следующие матрицы доходов (в относительных денежных единицах), соответствующие матрицам переходных вероятностей P1 и P2:

,         , где в матрице R2 учтены расходы, связанные с внесением удобрений. При этом

Характер задачи зависит от того, какое время планирует садовник заниматься своей деятельностью (N), но в любом случае необходимо выбирать такое поведение, которое обеспечило бы максимальную прибыль за N лет.

В частности решение может быть таким: «применять удобрение только в том случае, если почва плохая». Тогда матрицы переходных вероятностей и доходов будут следующими:

,                        .

Конечный и бесконечный горизонты планирования. Переоценка

При конечном горизонте планирования марковскую задачу принятия решения можно представить в виде задачи динамического программирования.

Считаем, что fi(j) — оптимальный ожидаемый доход (в смысле используемого принципа оптимальности) за этапы с номерами i, i+1 … N при условии, что после (i-1)-го этапа система S находится в состоянии Sj, где j Î {1, 2 … m}. Так как горизонт планирования конечен, то выполняются условия fN+1(j) = 0, j = 1,m.

Оптимальный ожидаемый доход fi(j) на этапах i, i+1 … N складывается из двух составляющих:

1)   — ожидаемый доход за (i+1) этап;

2)   — совокупность оптимальных ожидаемых доходов fi+1(k), k = 1,m