Каждый год в начале сезона садовник проводит химический анализ почвы на своем участке и по его результатам оценивает продуктивность сада на новый сезон (см. таблицу 1). По результатам многолетних наблюдений садовник установил, что продуктивность сада в текущем году главным образом зависит от продуктивности сада в прошлом году.
Таблица 1 |
|
Состояние системы |
Продуктивность сада (состояние почвы) |
S1 |
Хорошая |
S2 |
Удовлетворительная |
S3 |
Плохая |
Пусть задана матрица переходных вероятностей, которая является постоянной:
Следует напомнить, что матрица задает вероятность перехода из j-го состояния системы (состояние в (i-1)-ом году) в k-ое (состояние в i–ом году). Например, если в прошлом году состояние почвы хорошее (S1), то вероятность того, что в этом году почва будет в плохом состоянии (S3) равна p13(i) = 0.3.
Садовник может принять решение о применении удобрений с целью повышения продуктивности сада («улучшения» вероятностей переходов). Если садовник решил использовать удобрения, то матрица переходных вероятностей изменится:
Матрица P2 показывает, что состояние почвы в среднем улучшится после применения удобрений. Таким образом, множество допустимых решений задачи G = {X1, X2}, где Х1 — оставить почву без изменений, Х2 — применение удобрений, а матрица переходных вероятностей равна:
С переходом системы из одного состояния в другое связана матрица дохода R(i|Xli-1) = (rjk(i|Xli-1)) Î Mm(R), в которой элемент rjk(i|Xli-1) — доход (положительное значение) или убыток (отрицательное значение) за i–ый этап. Доход (убыток) связан лишь с переходом системы из состояния Sj в состояние Sk при принятии решения Xli-1 Î G. Величина
определяет ожидаемый доход за i–ый этап, если после (i-1)-го этапа система находилась в состоянии Sj, и было принято решение Xli-1 Î G.
В качестве принципа оптимальности используется максимизация ожидаемого дохода за N этапов. При этом, если N конечно, то рассматривается задача с конечным горизонтом планирования, если N бесконечно, то рассматривается задача с бесконечным горизонтом планирования.
Для рассмотренной задачи с садовником можно взять следующие матрицы доходов (в относительных денежных единицах), соответствующие матрицам переходных вероятностей P1 и P2:
, , где в матрице R2 учтены расходы, связанные с внесением удобрений. При этом
Характер задачи зависит от того, какое время планирует садовник заниматься своей деятельностью (N), но в любом случае необходимо выбирать такое поведение, которое обеспечило бы максимальную прибыль за N лет.
В частности решение может быть таким: «применять удобрение только в том случае, если почва плохая». Тогда матрицы переходных вероятностей и доходов будут следующими:
, .
При конечном горизонте планирования марковскую задачу принятия решения можно представить в виде задачи динамического программирования.
Считаем, что fi(j) — оптимальный ожидаемый доход (в смысле используемого принципа оптимальности) за этапы с номерами i, i+1 … N при условии, что после (i-1)-го этапа система S находится в состоянии Sj, где j Î {1, 2 … m}. Так как горизонт планирования конечен, то выполняются условия fN+1(j) = 0, j = 1,m.
Оптимальный ожидаемый доход fi(j) на этапах i, i+1 … N складывается из двух составляющих:
1) — ожидаемый доход за (i+1) этап;
2) — совокупность оптимальных ожидаемых доходов fi+1(k), k = 1,m
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.