Марковские модели принятия решений, страница 4

P(t)(P(t) - Im) = Q1m, где Im — единичная матрица размера m, Q1m — нулевая матрица размера 1´m. При этом выполняются условия:

Pj(t) ³ 0,

j = 1,m;

,

t Î Gn.

Если , то ожидаемый доход за один этап безотносительно к состоянию, в котором система окажется на следующем этапе, при реализации стратегии t Î Gn равен E(t) = P(t)v(t). Стратегия определяется из условия .

Преобразование рассмотренной задачи к задаче линейного программирования можно произвести следующим образом.

Пусть qij — условная вероятность того, что будет принято допустимое решение Xi Î G, если изучаемая система находится в состоянии Sj. Тогда задачу можно представить в следующем виде:

при ограничениях

где М — число элементов множества допустимых решений; Pj и pjk, j,k = 1,m — функции выбранной стратегии, vij = vj(xi). Данная задача эквивалентна исходной лишь при условии, что qij = 1 для фиксированного i и для всех j = 1,m.

Пусть wji — вероятность пребывания системы в состоянии Sj при принятии решения Xi Î G, равная

wji = Pj qij, для всех j = 1,m, i = 1,M. Þ

Таким образом,

,                             

Функция e может быть представлена в виде

Окончательно задача может быть сформулирована в следующем виде с переменными wji:


Пример

Для рассмотренной задачи с садовником, вычислив значения ожидаемых доходов, можно записать математическую модель:

Оптимальное решение: w11=0, w12=6/59, w21=0, w22=31/59, w31=0, w32=22/59 Þ q21=q22=q23=1. Оптимальной является стратегия (X2, X2, X2).

Марковская задача принятия решений с дисконтированием связана с рекуррентными уравнениями:

которые могут быть заменены системой неравенств:

при условии, что функция стратегии Ft(j) достигает своего наименьшего значения на множестве стационарных стратегий при любом j = 1,m.

Если воспользоваться целевой функцией

где произвольные постоянные bj положительны при j = 1,m, то ее минимизация с учетом неравенств обеспечит минимальное значение Ft(j) при j = 1,m. Но при этом задача

в общем случае не является стандартной задачей линейного программирования, так как функции Ft(j) не ограничены в знаке. Зато стандартной является двойственная к ней задача относительно переменных wji:

При этом модель имеет тот же вид, что и задача без дисконтирования.

Заключение

Рассмотренная модель марковских процессов принятия решений позволяет решать задачи принятия решений в условиях риска при заданном одном критерии, либо нескольких, приведенных к одному. Система допущений, используемых в модели и приводящих реальную ситуацию к описанию с помощью марковских процессов, ограничивает применение метода классом задач принятия решений, в которых можно принять допущение о дискретном времени, зависимости текущего состояния системы только от предшествующего и скачкообразном изменении состояния системы. Несмотря на эти ограничения, модель позволяет решать задачи принятия решений, сводящихся к классической задаче управления запасами.

Основным методом решения марковских задач принятия решений в данной работе является метод линейного программирования. Модель линейного программирования позволяет найти решения задачи за конечное число шагов, при этом не используя сложных и приближенных математических методов. Это облегчает поиск решения.

Решением задачи является вектор решений — стратегия — обеспечивающий оптимальное значение выбранного критерия. В качестве принципа оптимальности выбрана максимизация ожидаемых доходов на заданном числе этапов.


Литература

1. Волков И.К., Загоруйко Е.А. Исследование операций: Учебник для вузов / Под ред. В.С. Зарубина, А.П. Крищенко. — М.: Изд-во МГТУ им. Н.Э. Баумана, 2000. 436 с.