Парадокс из теории игр. Парадокс гладиатора

Страницы работы

Фрагмент текста работы

Однако у Неймана была замечательная идея расширить множество возможных стратегий, он ввел «смешанные стратегии», которые соответствуют случайному выбору из множества чистых стратегий. Таким образом, смешанная стратегия есть вероятностное распределение на множестве чистых стратегий. (В примере с игрой детей смешанными стратегиями были пары p1, p2 и q1, q2 соответственно.) При смешанных стратегиях игрок не может «видеть противника насквозь», но зато появляется случайность, даже в тех играх, которые сами от случая не зависят. Если мы хотим найти оптимальную смешанную стратегию, то мы, естественно, должны определить функцию потерь на множестве пар (π1, π2) смешанных стратегий. Пусть L(π1, π2) —потери в среднем, которые второй игрок выплачивает первому, когда игроки применяют смешанные стратегии π1 є P1 и π2 є P2 . Теорема Неймана о минимаксе (фундаментальная теорема теории игр) утверждает, что если множества S1 и S2 конечны, то

max  min L(π1, π2) = min  max L(π1, π2)

π1 є P1    π2 є P2                              π1 є P1   π2 є P2

т. е. в классе смешанных стратегий всегда существует седловая точка. Иными словами, для обоих игроков существуют оптимальные смешанные стратегии.

Общую модель теории игр можно также использовать для исследования конфликтов, возникающих в других сферах жизни. Например, с математической точки зрения коммерческую конкуренцию можно рассматривать как «игру», в которой оба игрока хотят найти спои оптимальные стратегии. Поскольку все менее и менее вероятно, что конкуренты могут постоянно надувать друг друга, компромиссы (соответствующие седловым точкам) становятся все более и более необходимыми во многих областях. Теория игр внесла новые аспекты и в математическую статистику, благодаря в основном трудам Абрахама Вальда. Ниже иллюстрируются некоторые применения теории игр в статистике.

(ii) Типичной задачей статистики является оценка неизвестного параметра ө є Ө вероятностного распределения Fө, исходя на наблюдений Х1, Х2, ..., Хn, имеющих распределение Fө (и обычно независимых), т. е. исходя из выборки. (Обычно, Ө — произвольное множество чисел или векторов.) Рассмотрим функцию двух переменных L(ө, с), значениями которой являются наши потери, когди и качестве оценки для неизвестного параметра ө  берется с. Естественно предполагать, что потери тем больше, чем больше отклонение | ө— с|. Таким образом, L(ө, с), как правило, является монотонно возрастающей функцией от величины |ө — с|, например, L(ө, c)=| ө — c|d, где d > 0.

Оценка ө  = f(X1, X2, ..., Хп) хороша, если средние потери ма­лы, т. е. если функция риска R(ө, ө ) = E(L(ө,ө)) мала. Однако при сравнении двух оценок может оказаться, что значение функ­ции риска для первой оценки при некоторых значениях пара­метра ө  меньше, чем для второй оценки, а при других значениях ө ситуация противоположная. Для достаточно большого класса оценок существуют функции риска, которые убывают при одних значениях ө только тогда, когда при других значениях ө они воз­растают. Оценки такого типа называются допустимыми оцен­ками, т. е. оценка ө0 является допустимой, если неравенство R (ө, ө) ≤R (ө, ө0) справедливо для всех       ө є Ө  тогда и только тогда, когда R (ө, ө) = R (ө, ө0) для всех ө є Ө  . Имеет смысл использовать только допустимые оценки, так как для оценки, ко­торая не является допустимой, мы всегда можем найти другую оценку, функция риска которой нигде не больше, а в некоторых точках строго меньше функции риска недопустимой оценки. Если мы хотим найти допустимую оценку, которая минимизирует средние потери

Похожие материалы

Информация о работе