Teoria gier/Gry dwuosobowe suma niezero

Z Skrypty dla studentów Ekonofizyki UPGOW

Spis treści

Gry dwuosobowe o sumie niezerowej

Dominacje

Jak zauważyliśmy w poprzednim rozdziale niektóre gry o sumie niezerowej mogą być równoważne grom o sumie zerowej innymi słowy poszukując ich rozwiązań, sprowadzamy te gry do jednej z gier o sumie zerowej. Na ogół jednak rozwiązywanie gier dwuosobowych o sumie niezerowej nie da się sprowadzić do gier o sumie zerowej. Co więcej, gry o sumie niezerowej cechuje dużo większa różnorodność oraz, co najważniejsze, dużo szersze zastosowanie do zagadnień z życia codziennego. Postaramy się to w niniejszym rozdziale wykazać.

Na początek przyjrzymy się kilku przykładom gier o sumie niezerowej i możliwym typom dominacji lub jej braku. Rozpatrzmy następującą grę

Przykład 3.1 Gra "w kółko".
Gra bez dominacji i równowag
3.1 A B
\(\longleftarrow\)
A \(\downarrow\) 1, 2 2, 1 \(\uparrow\)
B 2, 1 1, 2
\(\longrightarrow\)

Gdzie do tabeli wypłat wpisaliśmy strzałki pokazujące preferencje graczy. Dla zaoszczędzenie miejsca opuściliśmy też oczywiste oznaczenie "Wiersz" i "Kolumna". Zauważmy, że strzałki pionowe są skierowane w kierunku wyższych wypłat Wiersza a nie zależą od wypłat Kolumny. Strzałki poziome zaś są skierowane w kierunku wyższych wypłat Kolumny a nie zależą od wypłat Wiersza. Warto przy tej okazji zauważyć, że takie zdefiniowanie kierunków strzałek niekoniecznie musi odpowiadać rzeczywistym preferencjom graczy, nawet przy założeniu ich pełnej racjonalności. Może się zdarzyć, że Wiersz bardziej niż maksymalizacją swojej wygranej, bardziej będzie zainteresowany minimalizacją wygranej Kolumny i vice versa, strategie typu "pies ogrodnika" który "sam nie zje i drugiemu nie da" nie są rzadkie w naszej rzeczywistości, tego typu przykłady podamy jednak później.

Wracając do gry 3.1 widzimy, że nie ma na ta grę sposobu. Jeśli Wiersz wybierze A to Kolumna dokona również wyboru A. Wtedy jednak Wiersz wybierze jako bardziej korzystną opcję B. To jednak skłoni kolumnę do wyboru również B. Wiedząc o tym Wiersz jednak wybierze A. I tak "w kółko"..., gra ta przypomina pogoń kota za własnym ogonem. Można również znaleźć analogię do znanej gry w "papier, nożyce i kamień". Żaden z graczy nie znajdzie strategii lepszej od drugiego, najbezpieczniej dla obu będzie grać w sposób przypadkowy, wtedy wyniki graczy będą średnio takie same. Diagram przesunięć tej gry jest analogiczny do gry o sumie zerowej 2.7.

Rozpatrzmy wobec tego kolejną grę, w której zauważymy wyraźną dominację strategii

Przykład 3.2 Gra z podwójną dominacją.
W tej grze A Wiersza i B Kolumny są zdominowane
3.2 A B
\(\longleftarrow\)
A \(\downarrow\) 1, 2 1, 1 \(\downarrow\)
B 2, 2 2, 1
\(\longleftarrow\)

W tej grze widzimy wyraźną preferencję Wiersza do opcji B oraz preferencję Kolumny do opcji A. Racjonalni gracze tak właśnie powinni zagrać, co dla obojga oznacza maksymalną możliwą wygraną (2,2). Trudno przypuszczać by racjonalni gracze mogli wybrać inne opcje.

Przykład 3.3 Gra z pojedynczą dominacją.
Kolumna wybierze B więc Wiersz powinien wybrać A
3.3 A B
\(\longrightarrow\)
A \(\downarrow\) 1, 1 2, 2 \(\uparrow\)
B 2, 1 1, 2
\(\longrightarrow\)

W tej grze żadna ze strategii Wiersza nie dominuje drugiej. Wiersz jednak powinien popatrzeć na tę grę z punktu widzenia Kolumny. Wtedy zobaczy, że dla Kolumny strategia B dominuje A więc Kolumna z pewnością zagra właśnie B. Wobec tego oczywiste staje się, że Wiersz powinien też zagrać strategię B. Podejmowanie decyzji w oparciu o przewidywanie tego co mogą zrobić inni jest podstawą tzw. myślenia strategicznego. Wiele ciekawych przykładów tego typu myślenia można znaleźć w książce A. K. Dixit i B.J. Nalebuff "Sztuka strategii"".

Równowagi Nasha

Pokażemy teraz grę, w której nie ma dominacji ale pomimo tego gra nie przypomina pogoni kota za ogonem jak to było w przypadku przykładu 3.1.

Przykład 3.4 Gra z podwójną równowagą.
Ta gra ma dwie równowagi w punktach (B,A) oraz (A,B)
3.4 A B
\(\longrightarrow\)
A \(\downarrow\) 2, 3 8, 6 \(\uparrow\)
B 5, 4 2, 1
\(\longleftarrow\)

Załóżmy, że graczy zagrają w tej grze opcję (A,A). Każdy z nich zobaczy, że byłoby dla niego lepiej gdyby zmienił swoja opcję na B podczas gdy przeciwnik pozostanie przy swojej opcji A. Wyniki odpowiadające wyborowi opcji (A,B) oraz (B,A) są punktami równowagi, co oznacza że żadnemu z graczy nie opłaca się zmieniać swojego wyboru podczas, gdy drugi pozostaje przy swoim. Grając w te grę więcej niż jeden raz racjonalni gracze prawdopodobnie wykorzystają ten fakt i po osiągnięciu punktu równowagi nie będą chcieli go szybko zmienić. Tego typu punkty w Teorii gier mają ogromne znaczenie i są nazywane równowagami Nasha od nazwiska znanego badacza Teorii gier Johna Forbesa Nasha, laureata nagrody Nobla z ekonomii.

Równowaga Nasha
Równowaga Nasha nazywamy taką parę strategii graczy, dla której żaden z nich nie może zyskać przez zmianę swojej strategii podczas gdy drugi gracz swojej nie zmieni. W stanie równowagi, każdy z graczy wybiera strategią, która jest najlepszą odpowiedzią na wybory innych graczy.


Zauważmy, że w grze 3.4 istnieją dwie równowagi Nasha i gracze w nią grający powinni zauważyć, że równowaga (A,B) jest dla obojga korzystniejsza niż (B,A). Nie zawsze jednak tak bywa. W wielu grach w których istnieją równowagi Nasha gracze nie wybór nie jest oczywisty ani jednoznacznie określony, co więcej w niektórych grach równowagi Nasha są bardzo niekorzystnymi wynikami gry. Tego typu przykłady - niepożądanych własności równowag Nasha zobaczymy na przykład w znanej grze "Dylemat więźnia".

Kolejna gra jest pozornie bardzo podoba do 3.4, jest między nimi jednak jedna istotna różnica

Przykład 3.5 Gra z podwójną równowagą i zagrożeniem.
Ta gra ma dwie równowagi w punktach (B,A) oraz (A,B) ale groźba wysokiej przegranej przy zagraniu opcji (B,B) może skłonić do bezpiecznej gry (A,A)
3.5 A B
\(\longrightarrow\)
A \(\downarrow\) 2, 3 8, 6 \(\uparrow\)
B 5, 4 -200, -100
\(\longleftarrow\)

Różnica polega na wysokości niekorzystnego wyniku przy wyborze opcji (B,B). W poprzednim przypadku wynik ten (2,1) był niekorzystny ale mógł być przez graczy zaakceptowany w przypadku gdyby "wypadek przy pracy" sprawił, ze gracze nie zagrają strategii równowagi. W grze 3.5 potencjalna "wpadka" przy zagraniu (B,B) jest zbyt wysoka i nie do zaakceptowania dla graczy. Prawdopodobnie więc, każdy z nich chcąc zabezpieczyć się przed wysoką przegraną zagra opcję A, a zatem, mimo, że opcja (A,A) nie jest równowagą, będzie ona najlepszą alternatywą dla graczy. Zauważmy, że gdyby tylko jeden z graczy był zagrożony wysoka przegraną, t.j. np. wygrana Wiersza była taka jak w grze 3.4 a wygrane Kolumny takie jak w grze 3.5 to tylko Kolumna miałaby powody aby zagrać "bezpiecznie" unikając swojej strategii B. Przewidując takie myślenie Kolumny Wiersz jednak powinien to zrozumieć i nie upierać się przy swojej opcji A (aby osiągnąć wyższą równowagę) lecz powinien zaakceptować nieco niższą wygraną ale dużo bezpieczniejszą dla Kolumny wygraną równowagi (B,A). Zauważmy, że rozumowanie Wiersza jest w tym przypadku nieco paradoksalne. "Muszę zagrać na niższą równowagę (B,A) bo Kolumna może się bać, że zagram opcję B wtedy gdy ona również zagra B".

Może się również zdarzyć, że dwie równowagi, takie jak w grze 3.4 będą asymetryczne ze względy na wypłaty graczy. Ten ciekawy przypadek pokazano w przykładzie 3.6

Przykład 3.6 Gra z asymetrycznymi równowagami.
Ta tej grze dużo zależy od tego który gracz "postawi na swoim" i skłoni drugiego do grania równowagi korzystniejszej dla siebie
3.6 A B
\(\longrightarrow\)
A \(\downarrow\) -1, -1 1, 2 \(\uparrow\)
B 2, 1 0, 0
\(\longleftarrow\)

W tej grze mamy dwie równowagi (A,B) oraz (B,A). W odróżnieniu jednak od gry 3.4 nie ma jednaj równowagi, która byłaby "lepsza" od drugiej. Co więcej opinie graczy będę podzielone. Wiersz z pewnością preferuje równowagę (B,A) w której wygrywa 2 do 1 z Kolumną a Kolumna Równowagę (A,B) bo tu ona wygrywa w tym samym stosunku. Rozwiązania (A,A) i (B,B) są dla obojga równie niekorzystne. Jak zatem powinien postąpić racjonalny gracz w tej sytuacji? Ilościowe rozważania nie są w stanie przybliżyć nas do udzielenia odpowiedzi na to pytanie. Zamiast tego przytoczmy pewną historyjkę.

Dwie ciężarówki pędzą naprzeciw siebie po wąskiej drodze. Droga jest na tyle wąska, że nie są w stanie się wyminąć a zjazd na pobocze grozi zakopaniem się w grząskim gruncie. Kierowcy świadomi tego nie zamierzają ustąpić - każdy liczy na to, że to ten drugi zjedzie na pobocze. Obaj są na tyle zdeterminowani aby nie ustąpić, że zderzenie wydaje się nieuchronne. W pewnym momencie, kiedy są już bardzo blisko, jeden z nich wyrywa w swoim samochodzie kierownicę i wyrzuca ją przez okno...

Ta historyjka podpowiada nam jak wygrać grając w grę typu 3.6. Opcja A to "jechać prosto" opcja B to "zjechać na pobocze" Dwie nieekwiwalentne równowagi Nasha to sytuacje (A,B) i (B,A) kiedy kierowca ustępuje drugiemu i obaj przejeżdżają wąską drogą, choć jeden włoży w to większy wysiłek. Rozwiązania nierównowagowe to sytuacja w której obaj decydują się jechać prosto (A,A) i dochodzi do zderzenia albo obaj skręcają w grząskie pole (ta sytuacja jest gorsza niż gdyby tylko jeden zjechał bo obaj utopieni w błocie nie mogą sobie wzajemnie pomóc). Wygrywa ten, który w czasie negocjacji jako pierwszy zakomunikuje: "Rób co chcesz ale ja nie ustąpię..." Tego typu postawienie sprawy stawia tego drugiego w niezwykle trudnej sytuacji, chcąc uniknąć najgorszego często ustępuje. Choć teoretycznie może powiedzieć to samo to jego przekaz, jako drugi, nie będzie już tak wiarygodny. Jeszcze skuteczniejszy może być tego typu komunikat kiedy zaraz po nim zerwiemy komunikacją. Na przykład powiemy to przez telefon i nie czekając na odpowiedź rzucimy słuchawkę.

Kooperacja czy zdrada: dylemat więźnia

Najszerzej spopularyzowana gra teorii gier jest opatrzono obrazową nazwą nasuwającą skojarzenie z procesem sądowym. W istocie zastosowanie tej gry wykracza znacznie poza sytuację dylematu dwóch podejrzanych o przestępstwo. Gracze, nie kontaktując się z sobą, mają do wyboru: lojalność wobec towarzysza (nie przyznanie się przy założeniu, że on też się nie przyzna) lub zdradę: przyznanie się i wrobienie kolegi w zamian za złagodzenie kary. Posługując się ogólnymi terminami współpraca - zdrada możemy schemat ten odnieść do różnych sytuacji, w których wynik zależy od posunięć obu stron, a wybór każdego posunięcia dokonywany jest w oparciu o przewidywanie ruchu partnera. Popatrzmy na tabelę wypłat, dla której - wyjątkowo - im wyższa wypłata tym gorzej dla gracza - wszak przez "wypłaty" rozumiemy to lat odsiadki w więzieniu,

Przykład 3.7 Dylemat więźnia
Równowagą Nasha jest po 10 lat odsiadki dla ubu, jednak znacznie korzystniejszym wynikiem jest odsiadka jednoroczna.
3.7
lata odsiadki
nie przyzna przyzna
\(\longrightarrow\)
nie przyzna \(\downarrow\) 1, 1 25, 0 \(\downarrow\)
przyzna 0, 25 10, 10
\(\longrightarrow\)

W omawianej historyjce mogą wystąpić cztery sytuacje, bowiem obaj aresztowani mają dwie opcje: przyznać się (zdrada towarzysza) lub nie przyznać się (konsekwentna współpraca). Jeśli każdemu rozwiązaniu przypiszemy ilość lat odsiadki, uzyskamy następujący obraz:

  • Obaj nie przyznają się i, z powodu braku dowodów, otrzymują symboliczny wyrok, będący w ich sytuacji nagrodą obopólną (N) za wzajemną współpracę (kara dla obu 1 rok);
  • Obaj przyznają się, otrzymają więc złagodzony (na mocy umowy z prokuratorem) wyrok, stanowiący karę (K) za wzajemną zdradę (kara 10 lat);
  • Jeden się przyzna, lecz drugi nie; wówczas ten pierwszy zostanie wynagrodzony całkowitym uwolnieniem (kara 0), a drugi otrzyma wysoki wyrok (kara 25 lat). Ta asymetryczna sytuacja staje się pokusą do zdrady (P), kto jej nie ulegnie i chce być nadal lojalny, ponosi klęskę i zostaje "frajerem" (F).

Nazwy tych rozwiązań, mających różny wydźwięk dla obu partnerów, podkreślają faktyczny dylemat, przed którym stoją: czy starać się zminimalizować straty i uzyskać nagrodę, zakładając, że drugi również będzie tak rozumował? Ale przecież on także wystawiony jest na pokusę uzyskania jeszcze lepszego rozwiązania, jeżeli dopuści się jednostronnej zdrady. Wie on jednakże, że druga osoba myśli w podobny sposób, a zatem nie można zakładać, że zaryzykuje pójściem na współpracę. Efekt jest taki, że z punktu widzenia własnego interesu obaj "gracze" skłonni są wybrać posunięcie "zdrada" i każdy z nich uzyska wynik dla siebie niekorzystny (K), choć nie tak tragiczny, jakim ryzykowałby idąc na współpracę i zostając zdradzony (F). Wynik obopólnej zdrady (K) jest równowagą Nasha tej gry. Paradoks polega na tym, że w obawie przed zdradą (F) obaj gracze są w stanie zaakceptować to "bezpieczne" rozwiązanie (K) podczas, gdy do ich dyspozycji pozostaje jednoznacznie najkorzystniejsze rozwiązanie (N).

Kwestią decydującą o zachowanie graczy w tym przypadku okazuje się być pojęcie, który pozostaje poza stricte matematycznym podejściem do teorii gier. Pojęciem tym jest zaufanie do siebie graczy. Przestępcy, zanim popełnili czyn karalny umówili się, że w razie problemów z wymiarem sprawiedliwości nie wydadzą siebie wzajemnie, będą konsekwentnie wobec siebie lojalni. W takim przypadku wybór rozwiązania kooperacyjnego (N) jest uwarunkowany zaufaniem do siebie obu graczy ufając sobie częściej wybiorą rozwiązanie kooperacyjne. Gracze, którzy z natury dążą da maksymalizacji swojej korzyści widzą jednocześnie, że opłaca im się współpraca z konkurentem/partnerem, dzięki której obaj "per saldo" zyskają w świecie pełnym innych konkurentów. W ten sposób, dylemat więźnia wpisany jest konflikt między racjonalnością indywidualną i grupową. Jak zauważa Straffin: "Jednostki racjonalnie dbające o swoje interesy doprowadzają do wyniku niekorzystnego dla wszystkich, w tym i dla nich samych".

Dylemat więźnia modeluje wiele zjawisk zachodzących w realnych sytuacjach społecznych, gospodarczych a nawet globalnych problemach ekologicznych świata, w których dwie strony mogą uzyskać obopólnie korzystny wynik przy zachowaniu kooperacyjnym, jednakże obawa przed egoistycznym zachowaniem partnera i chęć maksymalizacji własnych korzyści skłania je często do wyboru opcji niekooperacyjnej ("zdrady" w przyjętej tu terminologii) i uzyskaniu kiepskiego rezultatu. Przykładami są negocjacje, podział zasobów, konfrontacja związki zawodowe - zarząd firmy, rywalizacja departamentów w firmie, relacje pracownik - przełożony, relacje między współpracownikami i wiele innych.

Współpraca się opłaca – turnieje Axelroda

Jednorazowe rozegranie dylematu zdrada-współpraca nie ma, jak widzieliśmy, "naturalnego", czyli dającego się uzasadnić drogą dedukcji rozwiązania. Ze względów psychologicznych obie strony skłonne są wybrać niekorzystny dla siebie wynik będący ceną ochrony przed rezultatem najgorszym. Sytuacje konfrontacji czy sprzeczności interesów mają jednak tendencję do powtarzania się i, choć zmieniać się będzie kontekst i partnerzy, zasadne staje się pytanie, jakich skutków możemy oczekiwać w dłuższej skali czasowej. Innymi słowy, czy konsekwentne stosowanie jakiegoś rodzaju strategii, np. współpracy lub bezwzględnego zdradzania da nam w ogólnym rozrachunku więcej korzyści. Dobrze uzasadnioną odpowiedź na to pytanie uzyskał politolog Robert Axelrod dokonując symulacji komputerowych działania rozmaitych strategii podczas wielokrotnego rozgrywania dylematu więźnia. Wiele razy powtarzana (czyli iterowana) sytuacja daje możliwość zobaczenia, co staje się z rachunkiem zysków i strat partnerów stosujących różne podejścia. Axelrod ogłosił wśród fachowców zajmujących się teorią gier turniej na najlepszą strategię będącą kombinacją posunięć Współpraca - Zdrada w iteracji dylematu więźnia. Nadesłane strategie, a były wśród nich bardzo proste i niezwykle wymyślne, dało się z grubsza poklasyfikować według pewnych kryteriów. Były więc strategie uprzejme, czyli takie, które nigdy nie zdradzały jako pierwsze i wredne, które notorycznie lub od czasu do czasu dopuszczały się zdrady. Inne kryterium, to pamiętliwość - wielokrotne karanie przeciwnika za zdradę. Dla kontrastu, wielkoduszne strategie nie odpowiadają na atak serią odwetów. W turnieju, w którym każda strategia walczyła po kolei z wszystkimi innymi, zwyciężyło - ku zdziwieniu uczestników - proste, nadesłane przez psychologa Anatola Rapoporta rozwiązanie o nazwie wet za wet. Zawsze zaczyna od współpracy, a następnie powiela posunięcia drugiej strony. Jest to strategia uprzejma (nigdy pierwsza nie posuwa się do zdrady) i jednocześnie nie pamiętliwa - na atak odpowiada atakiem, ale "wybacza" zdradę i nie stosuje dalszych akcji "prewencyjnych". Wynik ten przeczy obiegowym opiniom o potrzebie twardej postawy i stosowania siły w sytuacjach konfrontacyjnych; nawet dla specjalistów biorących udział w turnieju Axelroda strategia ta wydawała się zbyt "miękka". "Ta niemal utopijnie brzmiąca konkluzja" - jak określił to autor - że uprzejmość i wielkoduszność są cechami efektywnej strategii wyprowadzona została, podkreślmy to, nie z humanistycznych założeń filozofów czy psychologów, lecz z analizy rozgrywek "bezdusznych" programów komputerowych. Jak z analiz tych wynika, w otoczeniu zdominowanym przez działanie w stylu "wet za wet" osobnikowi stosującemu inne, bardziej "wredne" strategie, nie powiedzie się najlepiej. Strategia "wet za wet" wykazuje się zatem "odpornością na zdradę od wewnątrz" - czego, jak pamiętamy, nie da się powiedzieć ani o konsekwentnie napastliwym, agresywnym zachowaniu, ani o asekuranckiej taktyce.

Gdy w grze uczestniczą obdarzone świadomością jednostki, pojawia się możliwość ustalania posunięć przed ich wykonaniem i stosowania nacisku psychologicznego w postaci obietnic lub gróźb. W grze o schemacie dylematu więźnia dla pojedynczej rozgrywki "groźba" nie ma sensu (bo posunięcie "Zdrada" jest i tak racjonalne dla obu partnerów), ale sensowna jest "obietnica": "Odpowiem Współpracą na twoją Współpracę", dająca szansę na uzyskanie obopólnych korzyści. Jednakże nawet wtedy wizja egoistycznego, jednostronnie korzystnego rozwiązania i chęć zdominowania partnera mogą spowodować, że ulegniemy pokusie zdrady. Zdarza się to i w praktyce (nie wywiązanie się z ustaleń, niedotrzymanie ustnej umowy, torpedowanie współpracy) i w kontrolowanych sytuacjach eksperymentalnych. Pomimo tych komplikacji, na dłuższą metę korzystniejsze jest stosowanie strategii zasadniczo kooperacyjnych: nie "wrednych" i skrajnie egoistycznych, lecz zarazem nie naiwnych (rewanżujących się za nieczyste zagranie). Ta konkluzja wynikająca z analizy rozpatrywanych przez teorię gier modeli wykazuje zbieżność z postulatami psychologów składającymi się na partnerski model relacji międzyludzkich w kontaktach zawodowych: partycypacyjny styl zarządzania, wzorzec obopólnej wygranej w negocjacjach, zasady marketingu relacyjnego w kontaktach z klientami, postawa asertywna wobec szefa i współpracowników. Teoria gier dostarcza poparcia tezie, iż postulaty te oparte są na racjonalnych podstawach, jednakże w jakiej formie zostaną one wprowadzone w życie i czy staną się trwałym rysem naszego postępowania zależeć będzie od splotu czynników składających się na kruchą i nie w pełni przewidywalną materię ludzkich charakterów, dążeń, emocji.


Strategie wyrównujące i twierdzenie Nasha

Rozważmy teraz grę, która nie ma równowag Nasha w strategiach czystych a której diagram przesunięć jest analogiczny do tego z gry 3.1

Przykład 3.8 Gra "w kółko" .
Gra bez równowag Nasha w strategiach czystych
3.8 A B
\(\longleftarrow\)
A \(\downarrow\) 2, 3 1, 2 \(\uparrow\)
B 3, 0 0, 2
\(\longrightarrow\)

Omawiając o grę 3.1 zauważyliśmy, że nie ma w niej dominacji ani równowag. Na pierwszy rzut oka, gracze mogą się czuć bezradni nie znajdując sposobu na tę grę. Okazuje się jednak, że dla gier tego typu można znaleźć równowagę Nasha. Aby to zrobić przeanalizujmy osobna grę Wiersza i Kolumny dla przykładu 3.8.

Przykład 3.8' Metoda Williamsa dla gry Wiersza 3.8\(''\)
Obliczanie strategii wyrównującej Kolumny przez rozwiązanie gry Wiersza
3.8' Kolumna
Wiersz A B
A 2 1
B 3 0
różnice w kolumnach -1 1
\(pK_A\) i \( pK_B\) 1/2 1/2

Dla gry Wiersza z przykładu 3.8 możemy wyznaczyć strategię wyrównującą Kolumny \([pK_A, pK_B]=[1/2, 1/2]\,\). Jeżeli Kolumna zastosuję tą strategię, to wygrana Wiersza będzie równa wartości tej gry niezależnie od wyboru Wiersza. W przykładzie 3.8\('\) pokazano obliczenie tej strategii metodą Williamsa. Wartość gry Wiersza wynosi \(\nu_W=3/2\,\). Wyznaczmy teraz strategię wyrównującą Wiersza w grze Kolumny,

Przykład 3.8\(''\) Metoda Williamsa dla gry Wiersza 3.8
Obliczanie strategii wyrównującej Wiersza przez rozwiązanie gry Kolumny
3.8\(''\) Kolumna różnice w
wierszach
\( pW_A \) i \( pW_B\)
Wiersz A B
A 3 2 1 2/3
B 0 2 -2 1/3

Strategia ta \([pW_A, pW_B]=[2/3, 1/3]\,\) daje wartość oczekiwaną wygranej Kolumny lub wartość gry Kolumny \(\nu_K=2\,\). Wyznaczyliśmy zatem parę strategii wyrównujących Wiersza w grze Kolumny oraz Kolumny w grze Wiersza wraz z wartościami obu gier. Ta para strategii, zgodnie z definicją strategii wyrównujących, ma tę własność, że żaden z graczy nie może podwyższyć swojej wygranej (jej wartości oczekiwanej) poprzez jednostronną zmianę swojej strategii. A zatem znaleźliśmy równowagę Nasha dla gry o sumie niezerowej wyrażoną w strategiach mieszanych. Istnienie takiego rozwiązania nie jest niczym szczególnym w świetle twierdzenia Nasha

Twierdzenie (J. Nash)
Każda dwuosobowa gra o sumie niezerowej ma równowagę w strategiach prostych lub mieszanych.

Można by odnieść wrażenie, że równowagi Nasha są czymś w rodzaju rozwiązań gier o sumie zerowej w wersji dla gier o sumie niezerowej gdyż podobnie jak rozwiązania są strategiami wyrównującymi. Niestety, jak już mówiliśmy o tym definiując równowagę Nasha na ogół tak nie jest. Jak widzieliśmy w przykładach 3.3-3.6 równowagi gra może mieć kilka, w przeciwieństwie do rozwiązań gier o sumie zerowej, nierównoważnych równowag Nasha. Omawiając dylemat więźnia zauważyliśmy, że równowaga Nasha, jako rezultat obopólnej zdrady (K) jest wynikiem niekorzystnym dla graczy - istnieje wynik korzystniejszy dla obojga graczy. Również w przykładzie 3.8 widzimy, że równowaga Nasha prowadzi do wygranej \([\nu_W, \nu_K]=[3/2, 2]\,\), wyniku gorszego np. od \([2,3]\,\), które gracze mogliby uzyskać grając strategię prostą (A,A). W kolejnym rozdziale wprowadzimy pojęcie, które precyzyjnie zdefiniuje co to znaczy "rozwiązanie korzystne dla graczy"

Optymalność w sensie Pareto

Paretooptymalność
Wynik gry jest optymalny w sensie Pareto (paretooptymalny) jeżeli nie ma w tej grze innego wyniku (wypłaty), który byłby dla jednego gracza wyższy a dla drugiego nie niższy.

Uwaga. Jeżeli wynik gry nie jest paretooptymalny to znaczy, że istnieje inny wynik, nie niższy dla żadnego z nich a przynajmniej dla jednego wyższy.

Optymalność w sensie Pareto najlepiej zilustrować wykorzystując tzw. diagram użyteczności, czyli graficzne przedstawienie wypłat graczy. Diagram taki jest szczególnie przydatny w przypadku gier dwuosobowych, gdzie wygrane graczy przedstawiamy na dwu osiach układu współrzędnych. Na rysunku 4 przedstawiono dla przykładu diagram użyteczności gry 3.8. Oś pozioma diagramu wskazuje wygrane Wiersza a oś pionowa wygrane Kolumny.

Rys. 4. Diagram użyteczności gry 3.8. Rozwiązania optymalne w sensie Pareto a równowaga Nasha NashPareto.png

Wygrane graczy odpowiadające przyjętej parze strategii (A,A) będziemy oznaczali

\[{\mu }_W(A,A)=2,\ \ \ {\mu }_K(A,A)=3\,\],

gdzie \({\mu }_W\,\) to wygrana Wiersza a \({\mu }_K\,\) to wygrana Kolumny. Parę wygranych oznaczamy poprzez

\[\mu (A,A)=(2,3),\,\]

podobnie \(\mu(A,B)=(1,2)\,\), \(\mu (B,A)=(3,0)\,\), \(\ \mu (B,B)=(0,2)\,\). Diagram użyteczności gry 3.8 przedstawia wszystkie te punkty i odpowiadające im pary strategii. Punkty, pomiędzy którymi wybór należy do Wiersza połączono odcinkami wyboru Wiersza o kolorze niebieskim (od (A,A) do (B,A) i od (B,B) do (A,B)) a punkty, pomiędzy którymi wybór należy do Kolumny połączono odcinkami wyboru Kolumny o kolorze czerwonym (od (A,B) do (A,A) i od (B,A) do (B,B)). Strzałki odzwierciedlają preferencje z diagramu przesunięć 3.8. Zauważmy, że podobnie jak na diagramie przesunięć strzałki nie są zbieżne w żadnym punkcie diagramu użyteczności. Jak pokazaliśmy powyżej rozwiązanie gry da się wyrazić w strategie mieszanych. Możliwe strategie mieszane odpowiadają rozważanym odcinkom wyboru diagramu użyteczności. Rzeczywiście, równanie

\[{pK}_A(2,3)+(1-{pK}_A)(1,2),\ \ \ \ {pK}_A\in [0,1]\,\]

jest równaniem odcinka wyboru Kolumny łączącego punkty \(\mu (A,B)=(1,2)\,\) i \(\mu (A,A)=(2,3)\,\). Podobnie

\[{pK}_A(3,0)+(1-{pK}_A)(0,2),\ \ \ \ {pK}_A\in [0,1]\,\]

Jest równaniem odcinka wyboru Kolumny łączącego punkty \(\mu (B,A)=(3,0)\,\) i \(\mu (B,B)=(0,2)\,\).

Strategia wyrównująca Kolumny w grze Wiersza to taki dobór punktów na odcinkach wyboru Kolumny, który zapewnia, że wygrane Wiersza nie zależą od jego wyboru. Kolumna dobierając swoje prawdopodobieństwa \({pK}_A\,\) i \({pK}_B=1-{pK}_A\,\) de facto poszukuje takiego punktu na (czerwonych) odcinkach wyboru Kolumny aby wygrane Wiersza były nie zależały od jego wyboru.

Dobór strategii wyrównującej Kolumny oznacza więc znalezienie takiego \(\,{pK}_A\), że odpowiadające mu punkty na obu odcinkach wyboru Kolumny będą leżały jeden nad drugim tak aby ich współrzędna pozioma - wygrana Wiersza była ustalona. Taki punkt, jak pokazaliśmy wcześniej, istnieje. Pionowa linią przerywaną na rysunku 4 przecinającą oba odcinki wyboru Kolumny w punktach odpowiadających \({pK}_A={pK}_B=1/2\,\), odpowiadająca jej wygrana Wiersza, zgodnie ze znalezionym wcześniej rozwiązaniem gry 3.8 wynosi \({\mu }_W[\frac{1}{2} (3,0)+ \frac{1}{2}(0,2)]={\nu }_W=\frac{3}{2}\,\).

Podobnie pozioma linią przerywaną na rysunku 4 przecina oba odcinki wyboru Wiersza

\[{pW}_A(2,3)+(1-{pW}_A)(3,0),\ \ \ \ {pW}_A\in [0,1]\,\]

oraz

\[{pW}_A(1,2)+(1-{pW}_A)(0,2),\ \ \ \ {pW}_A\in [0,1]\,\]


w punktach odpowiadających \({pW}_A=\frac{2}{3}\,\) i \({pW}_B=\frac{1}{3}\,\). Odpowiadająca tym punktom wygrana Kolumny, wynosi \({\mu}_K[\frac{2}{3}\ (2,3)+\frac{1}{3}\ (3,0)]={\nu }_K=2\,\).

Obie przerywane linie przecinają się w punkcie równowagi Nasha tej gry \([{\nu }_W,{\nu }_K]=(\frac{3}{2},2)\,\).

Z definicji optymalności w sensie Pareto wynikiem takim możemy nazwać każdy punkt diagramu użyteczności dla którego nie można powiększyć wygranej jednego gracza bez pogarszanie wygranej drugiego. Oznacza to, że jeśli wynik ma być Paretooptymalny to na prawo ani powyżej niego nie moga istnieć żadne inne wyniki gry. Dla diagramu z rysunku 4 własność taką mają wszystkie punkty leżące na odcinku od (A,A) do (B,A). Jak widać na tym przykładzie równowaga Nasha leży daleko od tego odcinka a zatem nie jest optymalna w sensie Pareto.