Решая приведенную задачу динамического программирования, определяется вектор решений. Поскольку значения оптимальных ожидаемых доходов вычисляются итеративно, то сам метод решения называют методом итераций по стратегиям.
Матрицы доходов в марковских моделях не всегда отражают доходы в прямом смысле этого слова. Если матрицы R(i|Xli-1) действительно являются матрицами доходов, а длительность этапа 1 год, то при нахождении оптимального решения необходимо учитывать переоценку путем введения годового коэффициента переоценки (дисконтирования):
, где c — годовая норма процента и 0 < a < 1. Годовой коэффициент переоценки указывает на то, что D денежных средств будущего года равны aD денежным единицам настоящего года. В рассматриваемом примере необходимо использовать коэффициент переоценки ожидаемых оптимальных доходов для последовательных этапов, т.е. второе слагаемое выражения для определения fi(j) необходимо умножить на коэффициент дисконтирования.
В случае бесконечного горизонта планирования необходимо использовать особенности, в основе которых лежат свойства марковских процессов. В частности, существует понятие установившегося состояния системы, когда поведение процесса не зависит от начального состояния. При достижении системой установившегося состояния (если это возможно) показатели ожидаемого дохода или ожидаемых затрат стабилизируются. Наряду с установившимся состоянием системы существует понятие переходного периода — совокупности этапов, предшествующих этапам функционирования системы в установившемся состоянии. Решение задач с бесконечным горизонтом планирования базируется на максимизации ожидаемого дохода за переходный период.
Существует два основных метода решения задач принятия решения с бесконечным горизонтом планирования:
· метод перебора всех возможных стационарных стратегий принятия решения — метод полного перебора;
· метод итерации по стратегиям.
Метод полного перебора применим лишь в случае малого числа допустимых решений. Данный метод реализуется в 4 этапа:
1) вычисление ожидаемого дохода за один шаг при k-ой стационарной стратегии для всех возможных состояний системы;
2) вычисление стационарных вероятностей Пj(k), j = 1,m, матрицы переходных вероятностей Pk, соответствующей стационарной стратегии с номером k = 1,K;
3) определение ожидаемого дохода для всех стационарных стратегий;
4) определение номера оптимальной стационарной стратегии из условия максимума ожидаемого дохода.
Метод итерации по стратегиям применяется, как правило, в двух вариантах: без переоценки и с переоценкой. Задача решается этим методом итерационно, начиная с произвольной стратегии и постепенно ее улучшая. Если улучшенная стратегия совпадает с текущей, это означает, что найдена оптимальная стратегия. В противном случае текущую стратегию заменяют улучшенной и повторяют процедуру. Метод реализуется в два этапа:
1) этап оценивания параметров;
2) этап улучшения стратегии.
Математическая модель марковской задачи принятия решений при бесконечном числе этапов без переоценки имеет следующий вид:
G = {Xi} — множество допустимых решений;
P(Xi) = (pjk(Xi)) Î Mm(R) — матрица переходных вероятностей;
R(Xi) = (rjk(Xi)) Î Mm(R) — матрица доходов;
Величина ожидаемого дохода при принятии допустимого решения Xjl для состояния Sj определяется выражением:
Стационарной стратегии
соответствует матрица переходных вероятностей P(t) = (pjk(t)) Î Mm(R).
Вектор стационарных вероятностей P(t) = (P1(t), P2(t) … Pm(t)) является решением однородного матричного уравнения:
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.