Теория игр и исследование операций. Модели, алгоритмы, сложность: Конспект лекций, страница 40


Метод фиктивных розыгрышей.

Предположим, что игроки уже сыграли N раз, причем игрок x kix раз выбрал свою i-ю стратегию, а игрок y kjy раз выбрал свою j-ю стратегию. å kix=å kjy=N.

Как играть в N+1 раз? В этой ситуации игрок x считает, что y играет по смешанной стратегии q=(k1y/N, k2y/N,…, kmy/N). Тогда математическое ожидание выигрыша 1-ого игрока при условии, что он выберет стратегию i, равно

. Поэтому игрок x выберет свою чистую стратегию   . Аналогично, игрок y выберет свою чистую стратегию   .

Пример:

Y1

Y2

Y3

min

Начиная с максиминных стратегий x1 и y2, повторяем в цикле:

, [N+1]*Aj(p) = N*Aj(p) + f i*j          , [N+1]*Bi(q) = N*Bi(q) + f i*j

X1

3

5

7

3

X2

2

4

8

2

X3

1

6

2

1

X4

8

2

1

1

max

8

6

8

Добавляем в текущие суммы таблицы строку I* и столбец j* матрицы fij.

NA1(p)

NA2(p)

NA3(p)

Xi*

Yj*

NB1(q)

NB2(q)

NB3(q)

NB4(q)

3 Þy1

5

7

X1

Y2

5

4

6 Þx3

2

+1

=4Þy1

+6

=11

+2

=9

X3

Y1

+3

=8

+2

=6

+1

=7

+8

=10Þx4

+8

=12

+2

=13

+1

=10Þy3

X4

Y1

+3

=11

+2

=8

+1

=8

+8

=18Þx4

+8

=20

+2

=15

+1

=11Þy3

X4

Y3

+7

=18

+8

=16

+2

=10

+1

=19Þx4

+8

=28

+2

=17

+1

=12Þy3

X4

Y3

+7

=25Þx1

+8

=24

+2

=12

+1

=20

+3

=31

+5

=22

+7

=19Þy3

X1

Y3

+7

=32Þx1

+8

=32

+2

=14

+1

=21

+3

=34

+5

=27

+7

=26Þy3

X1

Y3

+7

=39

+8

=40Þx2

+2

=16

+1

=22

+2

=36

+4

31Þy2

+8

=34

X2

Y3

+7

=46

+8

=48Þx2

+2

=18

+1

=23

X2

Y2

Посчитаем кратности и относительные частоты стратегий игроков за 9 шагов:

ky =(2, 2, 5) ;  kx =(3, 2, 1, 3).Þ p9опт=(3/9, 2/9, 1/9, 3/9), q9опт=(2/9, 2/9, 5/9).

Теорема (Робинсона-Монро) о методе фиктивных розыгрышей:

1)  Если рассмотреть последовательности частотных векторов : pN={pNi}={ kix/N }, qN={qNj}={ kjy/N },  то все предельные точки этих последовательностей являются оптимальными стратегиями:  pN®p*, qN®q*.

u(pN)-u(qN)®0, где u(pN)-оптимальный выигрыш второго игрока при условии, что первый играет по стратегии pN, u(qN)- оптимальный выигрыш первого игрока при условии, что второй играет по стратегии qN.
1,56,3,54,5,52,7,50,9,48,11,46,13,44,15,42,17,40,19,38,21,36,23,34,25,32,27,30

2,55,4,53,6,51,8,49,10,47,12,45,14,43,16,41,18,39,20,37,22,35,24,33,26,31,28,29

1,52,3,50,5,48,7,46,9,44,11,42,13,40,15,38,17,36,19,34,21,32,23,30,25,28

2,51,4,49,6,47,8,45,10,43,12,41,14,39,16,37,18,35,20,33,22,31,24,29,26,27