Statystyka w ujęciu Bayesowskim

Z Skrypty dla studentów Ekonofizyki UPGOW

(Różnice między wersjami)
(3.1 Przykłady wnioskowania Bayesowskiego z dyskretną przestrzenią hipotez)
(3.2 Procedury diagnostyczne w terminach Bayesowskich)
Linia 216: Linia 216:
Procedura diagnostyczna scharakteryzowana jest przez zespół prawdopodobieństw warunkowych przytoczonych w tabeli poniżej:
Procedura diagnostyczna scharakteryzowana jest przez zespół prawdopodobieństw warunkowych przytoczonych w tabeli poniżej:
 +
 +
 +
Jak widać z czterech przytoczonych wielkości tylko dwie są niezależne, zatem test diagnostyczny scharakteryzowany jest w pełni przez swoistość i czułość. Lub też alternatywnie poprzez częstość wyników fałszywie ujemnych oraz fałszywie dodatnich. Ten drugi alternatywny sposób charakteryzowania testu jest typowy w obszarze testowania hipotez statystycznych.
 +
 +
Czułość i swoistość są wewnętrznymi cechami procedury diagnostycznej, natomiast w praktyce interesuje nas interpretacja wyników dodatnich <math>T+</math> oraz ujemnych <math>T-</math>, czyli wartość dodana wyników <math>T+</math> oraz <math>T-</math>.
 +
 +
Owa wartość dodana reprezentowana jest łącznie przez dwa prawdopodobieństwa a posteriori, odpowiednio: <math>p(H+ | T+)</math> oraz <math>p(H- | T-)</math>. W biostatystyce noszą one miano, odpowiednio: wartości predyktywnej wyników dodatnich oraz wartości predyktywnej wyników ujemnych.
 +
 +
 +
Są one dane wzorami:
 +
 +
<math>
 +
p(H+|T+) = \frac{p(T+|H+) p(H+)}{p(T+|H+) p(H+)+ p(T+|H-) p(H-)}
 +
</math>
 +
 +
<math>
 +
p(H-|T-) = \frac{p(T-|H-) p(H-)}{p(T-|H-) p(H-)+ p(T-|H+) p(H+)}
 +
</math>
 +
 +
 +
Do zastosowania powyższych wzorów, oprócz czułości i swoistości testu należy znać prawdopodobieństwo a priori <math>p(H+)</math> o którym wiedzę czerpiemy z częstości występowania danej choroby (H+) czy nosicielstwa wirusa w populacji generalnej.
 +
 +
 +
;Uwaga
 +
Weryfikacja hipotez statystycznych w klasycznej statystyce odbywa się w pełnej analogii do testów diagnostycznych. Podana wyżej tabela zachowuje ważność, przy zmianie oznaczeń <math>(H+,H-)</math> na, odpowiednio <math>(H_0, H_1)</math>. Klasycznie <math>H�_0</math> jest symbolem tzw. hipotezy zerowej, <math>H_1</math> tzw. hipotezy alternatywnej. Tu także procedura wnioskowania tj. test statystyczny scharakteryzowana jest przez dwie liczby (prawdopodobieństwa warunkowe):
 +
1. Prawdopodobieństwo wyników fałszywie dodatnich; nazywa się ono historycznie prawdopodobieństwem błędu I rodzaju (oznaczane
 +
<math>\alpha</math>)
 +
2. Prawdopodobieństwo wyników fałszywie ujemnych; historycznie nazywane  prawdopodobieństwem błędu II rodzaju (oznaczane <math>\beta</math>)
 +
Ich pochodne wielkości to: czułość –  zwana mocą testu <math>(1 – \beta)</math> oraz swoistość <math>(1 – \alpha)</math>
 +
Różnicą jest jedynie to, że interpretacja testu jako dodatniego czy ujemnego związana jest z założonym prawdopodobieństwem błędu I rodzaju, zwanym także poziomem istotności testu.
 +
 +
 +
===3.2.1 Przykład Bayesowskiego wnioskowania w procesie diagnostycznym ===
 +
Do lekarza zgłasza się mężczyzna uskarżający się na nadmierną męczliwość, w wywiadzie podaje  chorobę wrzodową oraz epizody kamicy nerkowej. Lekarz rozważa jako jedną z możliwości nadczynność przytarczyc, pomimo iż nie jest to częsta choroba. Jej częstość występowania w populacji generalnej, na podstawie literatury, może być oceniona na 2%. Jest to zarazem nasze  prawdopodobieństwo a priori <math>p(H+)</math>.  Zleca oznaczenie poziomu wapnia w surowicy (aby wykluczyć wstępne rozpoznanie). Wynik badania jest jednak pozytywny tzn. poziom wapnia jest podniesiony (<math>T+</math>).
 +
 +
Jak wynik badania zmodyfikował prawdopodobieństwo a priori tzn. stopień poparcia dawanego wyjściowej diagnozie?  Załóżmy, że test podniesionego poziomu wapnia ma czułość 90% (tzn. <math>p(T+ | H+) =  0.90</math> ) i swoistość 95% (tzn. <math> p(T-  | H- ) =  0.95</math>). Wnioskujemy stąd prawdopodobieństwo wyników fałszywie dodatnich <math>p(T+ | H- ) = 0.05</math> i posiadamy wszelkie dane aby zastosować wzór Bayesa:
 +
 +
<math>
 +
p(H+|T+) = \frac{p(T+|H+) p(H+)}{p(T+|H+) p(H+)+ p(T+|H-) p(H-)} =
 +
\frac{ 0.90 \times 0.02} {0.90 \times 0.02 + 0.05 \times 0.98} =
 +
0.269 \approx 27 \%
 +
</math>
 +
 +
 +
Widzimy jak wzrósł stopień poparcia dla rozpoznania pierwotnego po uzyskaniu dodatniego wyniku testu. Niskie prawdopodobieństwo a priori 2% przeobraziło się w znacznie (dziesięciokrotnie) wyższe prawdopodobieństwo a posteriori 27% .
 +
 +
;Kolejny krok w procesie diagnostycznym 
 +
Mimo, że prawdopodobieństwo a posteriori jest znacznie większe od początkowego – a apriorycznego, daleko mu jeszcze do pewności (100%). Zatem diagnosta zleca kolejne, badanie tym razem już swoiste dla wstępnej diagnozy. Badaniem tym jest oznaczenie poziomu parathormonu (PTH) – hormonu produkowanego przez przytarczyce. Gdyby prawdziwa była diagnoza nadczynności tego gruczołu, spodziewamy się podniesionego poziomu PTH (T+), w przeciwnym przypadku uznajemy test za ujemny (T-).
 +
 +
Załóżmy, że test PTH  ma swoistość 98% (tzn.  <math>p(T- | H-) = 0.98</math>)  i czułość 95% (tzn.<math>p(T+ | H+) =  0.95</math>),  prawdopodobieństwo wyników fałszywie dodatnich wynosi więc <math>p(T+ | H-) =  0.02 </math> natomiast jako prawdopodobieństwo a aprioryczne przyjmujemy, zgodnie z Bayesowską filozofią wnioskowania, poprzednie prawdopodobieństwo końcowe <math>p(H+) = 27 \% = 0.27<math>.
 +
 +
W jakim stopniu dodatni wynik testu zmodyfikuje stopień poparcia dawanego diagnozie? Odpowiedź tkwi w formule Bayesa:
 +
 +
<math>
 +
p(H+|T+) = \frac{p(T+|H+) p(H+)}{p(T+|H+) p(H+)+ p(T+|H-) p(H-)} =
 +
\frac{ 0.95 \times 0.269} {0.95 \times 0.269 + 0.02 \times 0.731}
 +
= 0.9449 \approx 94.5 \%
 +
<\math>
 +
 +
Silny wzrost prawdopodobieństwa a posteriori obrazuje rozstrzygające znaczenie wykrycia podwyższonego poziomu parathormonu dla ostatecznej diagnozy.
 +
 +
 +
=== Przykład 3.2.2 ===
 +
 +
Kobieta posiadająca brata chorego na hemofilię spodziewa się dziecka. Przypomnijmy że hemofilia jest poważnym zaburzeniem krzepliwości krwi uwarunkowanym genetycznie tzn. sprzężonym z chromosomem X. Zatem może potencjalnie być ona nosicielką hemofilii (<math>H+</math>). Szanse tego (czyli prawdopodobieństwo a priori) wynoszą <math>p(H+) = 0.5</math> (albo jest albo nie jest nosicielką). Aby się o tym przekonać wykonuje ona test DNA, który jest swoisty na poziomie 90% i czuły na poziomie 80%.
 +
 +
Załóżmy, że wynik testu jest ujemny (<math>T-</math>). Jak wpływa to na stopień jej oczekiwań, że może być nosicielką. Innymi słowy, jakie jest prawdopodobieństwo a posteriori <math>p(H+ | T-)</math> ?
 +
 +
Odpowiedź daje wzór Bayesa:
 +
<math>
 +
p(H+|T-) = \frac{p(T-|H+) p(H+)}{p(T-|H+) p(H+)+ p(T-|H-) p(H-)} =
 +
\frac{ 0.1 \times 0.5} {0.1 \times 0.5 + 0.8 \times 0.5} = 0.11 =
 +
11 \%
 +
</math>
 +
 +
Czyli prawdopodobieństwo nosicielstwa – innymi słowy ryzyko zmalało prawie pięciokrotnie. Mimo, że wynik ten znacznie ją uspokoił, postanowiła wykonać kolejny test i złóżmy, że teraz wypadł pozytywnie <math>T+</math>. Jak zmieniło się teraz prawdopodobieństwo a posteriori, czyli jakie jest obecnie ryzyko bycia nosicielem? Znów stosujemy wzór Bayes, pamiętając jednak, że rolę prawdopodobieństwa a priori <math>P(H+)</math> pełni teraz wynik poprzedni, czyli poprzednie prawdopodobieństwo wynikowe (a posteriori). Jest to w pełni zgodne z filozofią wnioskowania Bayesowskiego: na wstępne subiektywne oczekiwania tzn. prawdopodobieństwa a aprioryczne składa się posiadana wyjściowo wiedza. Zauważmy, że poprzedni poziom oczekiwań wynosił 0.5 nie tylko dlatego, że nacechowany był niewiedzą  o stanie faktycznym ale także z powodu już istniejącej wiedzy na temat natury hemofilii.
 +
 +
Zatem stosujemy po raz kolejny wzór Bayesa, obecnie w postaci:
 +
<math>
 +
p(H+|T+) = \frac{p(T+|H+) p(H+)}{p(T+|H+) p(H+)+ p(T+|H-) p(H-)} =
 +
\frac{ 0.90 \times 0.11} {0.90 \times 0.11 + 0.20 \times 0.89} =
 +
0.357 = 35.7 \%
 +
</math>
 +
 +
Sens wyniku jest zrozumiały: oczywiście ryzyko wzrosło (3.5 krotnie) ale nadal jest mniejsze od wstępnych oczekiwań, bo przecież wśród wykonanych badań mieliśmy wynik ujemny!
 +
 +
Zdrowy rozsądek podpowiada, że dwa sprzeczne wyniki (<math>T+</math> oraz <math>T-</math>) są niekonkluzywne, więc w takich sytuacjach wykonuje się trzecie – rozstrzygające badanie. Powiedzmy, że wypada ono negatywnie (<math>T-</math>). Jaki jest teraz poziom ryzyka bycia nosicielem?
 +
 +
Stosujemy po raz kolejny wzór Bayesa, w celu uaktualnienia racjonalnego zaufania:
 +
<math>
 +
p(H+|T-) = \frac{p(T-|H+) p(H+)}{p(T-|H+) p(H+)+ p(T-|H-) p(H-)} =
 +
\frac{ 0.1 \times 0.357} {0.1 \times 0.357 + 0.8 \times 0.643} =
 +
0.065 = 6.5 \%
 +
</math>
 +
 +
Teraz widać, że wstępne a aprioryczne prawdopodobieństwo (ryzyko) uległo w sumie ok. 10 krotnej redukcji, co powinno w pełni uspokoić pacjentkę.
 +
 +
Jako ćwiczenie dobrze jest przeanalizować w analogiczny sposób inne konfiguracje dwóch negatywnych i jednego pozytywnego wyniku tj. (T+,T-,T-) oraz (T-, T- , T+). 
 +
 +
Przykład ten ilustruje także, następujące fakty. Po pierwsze zdroworozsądkową regułę iż przy dwóch sprzecznych wynikach testu trzeci jest decydujący. Po drugi pokazuje, że stopień zaufania w wynik rozstrzygający jest różny od naiwnego wniosku 2/3. Po trzecie, że ów stopień zaufania zależy od jakości testu, tzn. jego czułości i swoistości, które to wielkości były uwzględniane w naszych obliczeniach jako <math>p(T+|H+)</math> oraz <math>p(T-|H-)</math>.
 +
 +
 +
== 4. Bayesowska teoria estymacji parametrów modelu ==
 +
 +
Często mamy do czynienia z problemem, w którym pewien model jest z założenia słuszny, a przestrzeń hipotez dotyczy wartości parametrów tego modelu.  Na przykład w problemie regresji liniowej zakładamy liniową zależność pomiędzy zmienną objaśnianą <math>Y</math> i zmienną objaśniającą <math>X</math>. Zatem  <math> M: \;\; Y = a X + b </math> jest modelem, jego parametrami są tu <math>a</math>  i <math> b</math> czyli współczynnik kierunkowy (ang. slope) oraz wyraz wolny (ang. intercept).  Jeśli parametry modelu nie zostaną podane explicite, będziemy je oznaczać ogólnie symbolem <math> \theta </math>.
 +
Punktem wyjścia jest dla nas, jak zwykle wzór Bayesa

Wersja z 18:13, 13 lut 2011

Spis treści

Statystyka jako wnioskowanie w warunkach niepewności

We współczesnym ujęciu statystyka rozumiana jest jako dyscyplina umożliwiająca wnioskowanie w warunkach niepewności.

Rola wnioskowania dedukcyjnego w nauce jest ugruntowana od starożytności. Opiera się ono na logice, która dostarcza reguł wnioskowania. Wywodzą się one zazwyczaj z tautologii. W matematyce budując jakiś określony dział, np. geometrię czy algebrę liniową, punktem wyjścia są aksjomaty – zdania przyjmowane jako oczywiste. Aksjomaty wprowadzają podstawowe elementy (pojęcia) danej teorii, definiują jej zakres, a reguły wnioskowania służą do formułowania twierdzeń (wyprowadzania ich z aksjomatów). Z kolei w naukach empirycznych zajmujących się badaniem jakiegoś obszaru rzeczywistości, odkrywana tam struktura ujmowana jest pod postacią praw, których słuszności staramy się dociec formułując testowalne predykcje (przewidywania). Niestety, testy eksperymentalne przewidywań teoretycznych nie dostarczają prostych zero-jedynkowych odpowiedzi „prawda” lub „fałsz”. Nasz stan wiedzy zawsze jest niekompletny, zawsze możliwy jest do pomyślenia bardziej wyrafinowany eksperyment, a przyrządy pomiarowe zawsze mają skończoną dokładność. Wnioskowanie o słuszności teorii czy modelu opisującego jakiś obszar rzeczywistości w warunkach niepełnej wiedzy (tj. częściowej ignorancji, niepewności) jest przedmiotem statystyki.

Statystyka, w swej koncepcji, oparta jest na rachunku prawdopodobieństwa, w teorii prawdopodobieństwa zaś – od momentu jej powstania – istnieją dwie szkoły pojmowania, czym operacyjnie (w praktyce) jest prawdopodobieństwo. Pierwsza z nich tzw. częstościowa – pochodząca od Abrahama de Moivre’a – twierdzi iż prawdopodobieństwo wystąpienia zdarzenia losowego w praktyce jest reprezentowane przez częstość występowania tego zdarzenia w bardzo dużej liczbie identycznych prób. Ale co począć, gdy rozważane zdarzenie, zjawisko, sytuacja są z natury niepowtarzalne? A niepowtarzalny jest świat w którym żyjemy, lub czasy w których żyjemy, każdy człowiek jest niepowtarzalny i w wielu przypadkach zdroworozsądkowego używania terminu „prawdopodobieństwo” trudno byłoby uzasadnić jego poprawność na gruncie częstościowej definicji. Czy, na przykład stwierdzenie typu: „prawdopodobieństwo awarii współczesnej elektrowni jądrowej wynosi jeden na milion” ma sens? W rozumieniu częstościowym – nie ! W historii ludzkości nie zbudowano jeszcze miliona elektrowni jądrowych, a spośród tych które zbudowano kilka uległo mniej lub bardziej poważnym awariom. Jednak czujemy sensowność przytoczonych słów jako określenie miary niezawodności technologii konstrukcji elektrowni jądrowych.

Tu pojawia się druga szkoła pojmowania prawdopodobieństwa, której autorem jest Thomas Bayes. Zgodnie z tą szkołą, prawdopodobieństwo (bezwarunkowe, tzw. a priori) wystąpienia zdarzenia losowego jest niczym innym jak miarą racjonalnego przekonania, że dane zdarzenie wystąpi. Chcąc zmienić (zmodyfikować, wzbogacić) nasze przekonania wykonujemy eksperymenty (obserwacje) dotyczące interesującego nas zdarzenia. Wyniki badań przekształcają prawdopodobieństwo a priori (wstępne oczekiwania) w tzw. prawdopodobieństwo a posteriori (prawdopodobieństwo wynikowe, miara racjonalnego oczekiwania wystąpienia zdarzenia po uzyskaniu wyników badań). Generalnie w taki sposób odbywa się nasze poznawanie świata. Zwolennikami filozofii Bayesa byli tacy wielcy matematycy jak P.S. Laplace czy H. Poincare lub wybitny ekonomista John Keynes, ale dopiero obecnie rozwój technik numerycznych umożliwił przekształcenie się Bayesowskiego podejścia w poważny, awangardowy nurt współczesnej statystyki, umożliwiający stawianie i rozwiązywanie problemów niedostępnych dla klasycznej statystyki częstościowej.


Problemy fundamentalne: jak rozumieć prawdopodobieństwo?

Czym jest prawdopodobieństwo? W klasycznym ujęciu tzw. „częstościowym” prawdopodobieństwo zdarzenia A jest częstością występowania tego zdarzenia w długiej serii identycznych prób, czyli stosunkiem \(P(A) = \frac{n_A}{n} \) gdzie \(n_A\) reprezentuje liczbę zdarzeń \(A\) w \(n\) – próbach, gdzie „\(n\) jest duże” tzn. „\(n\) dąży do nieskończoności”. Definicja taka jest niesatysfakcjonująca z kilku powodów. Po pierwsze, co to znaczy że próby są identyczne? To znaczy, że szansa (czyli potocznie rozumiane „prawdopodobieństwo”) wystąpienia zdarzenia \(A\) w każdej z prób jest taka sama – zatem definiujemy pojęcie prawdopodobieństwa w istocie odwołując się do niego samego. W logice jest to fundamentalny błąd zwany petitio principium. Po drugie definicja taka nie ma zastosowania do zdarzeń niepowtarzalnych. Na przykład stwierdzenie historyka, typu: „ na podstawie zapisków historycznych, z dużym prawdopodobieństwem można stwierdzić iż podczas koronacji Władysława Jagiełły nie padał deszcz” w myśl częstościowej koncepcji prawdopodobieństwa jest kompletnie pozbawiona sensu. Z drugiej jednak strony nie widać w tej wypowiedzi absurdu, tym bardziej jeśli wynika ona z analizy konkretnych danych historycznych i znając ów szerszy kontekst można taką tezę uznać nie tylko za sensowną, ale wręcz za prawdziwą. Po trzecie, definicja częstościowa dotyczy pewnego zachowania granicznego, i to w dodatku „granicznego” w specyficzny, słabo określony sposób. Mianowicie nie jest to granica w zwykłym matematycznym sensie znanym z analizy (wręcz można pokazać, że taka „zwykła” granica nie istnieje) i nie jest wcale oczywistym kiedy \(n\) będzie dostatecznie duże aby mierzona częstość \(n_A/n\) faktycznie reprezentowała prawdopodobieństwo. Znacznie szerszą, nieuwikłaną w wyżej wymienione problemy, perspektywą jest Bayesowskie rozumienie prawdopodobieństwa jako miary racjonalnego zaufania w prawdziwość danej tezy, zaufania uwarunkowanego posiadaną informacją. W tym kontekście np. przestajemy mieć problem z wypowiedzią o stanie pogody podczas koronacji Jagiełły.

Zalety Bayesowskiego rozumienia prawdopodobieństwa:

1. Ma zastosowanie zarówno do zjawisk powtarzalnych jak i niepowtarzalnych, tzn. pytanie: „Z jakim prawdopodobieństwem będzie jutro padał deszcz?” jest w pełni sensownym pytaniem probabilistycznym.

2. Prawdopodobieństwo staje się teraz terminem opisu niepewności niezależnie od jej pochodzenia. Na równych prawach traktowane są tzw. „błędy statystyczne” tzn. niepewność wynikająca z błędów pomiarowych czyli ze skończonej dokładności przyrządów oraz „błędy systematyczne” czyli niepewność związana z naszą niewiedzą odnośnie skądinąd czysto deterministycznych procesów.

3. Losowość, czy przypadkowość zjawisk rozumiana jest tu jako wyraz niepełnej informacji jaką posiadamy.

4. W odróżnieniu od podejścia częstościowego, Bayesowskie rozumienie prawdopodobieństwa nie odnosi się do granicznych własności estymatorów czy statystyk. Ma ono zastosowanie zarówno w przypadkach gdy podejście częstościowe ma zastosowanie, jak również w przypadkach gdzie nie ma ono sensu.

5. Bayesowskie podejście automatycznie radzi sobie z nieistotnymi parametrami (ang. nuisance parameters) w modelach statystycznych

6. W podejściu Bayesowskim istotna jest informacja aprioryczna, np. ważne przesłanki że masa, czy objętość są zawsze dodatnie. W rzeczy samej, ignorowanie lub pomijanie takich apriorycznych faktów prowadzić może do fałszywych wniosków.

7. Statystyka w ujęciu Bayesowskim zawsze (tj. w obliczeniach i interpretacji) odnosi się tylko do danych, które faktycznie zostały otrzymane, podczas gdy statystyka częstościowa odnosi się (w swej interpretacji) do rozkładu wyników, które są potencjalnie możliwe, lecz de facto nie zostały zaobserwowane.

Różnicę pomiędzy podejściem częstościowym i Bayesowskim można syntetycznie opisać następująco:

W podejściu częstościowym, gdy piszemy prawdopodobieństwo \(p(X)\), to \(X\) oznacza zmienną losową czyli taką, która może przyjmować różne wartości w nieskończonym zespole (wyimaginowanym ansamblu) identycznych eksperymentów. Eksperymenty te są potencjalne, wirtualne, wyimaginowane. \(X\) ma w tym ansamblu rozkład prawdopodobieństwa \(p\), czyli częstość znalezienia wartości \(x\) w przedziale \([x, x+dx]\) wynosi \(p(x)dx\).

W podejściu Bayesowskim \( X\) ma pewną ustaloną, konkretną – lecz obarczoną niepewnością – wartość, natomiast \(p(x)dx\) opisuje (warunkowy) rozkład miary racjonalnego zaufania co do wartości \(x\). Rozkład ten jest warunkowy, gdyż uwarunkowany jest posiadaną informacją – ogólnym kontekstem problemu oraz danymi z eksperymentu. W nauce dostępna informacja jest zawsze niepełna, więc nasza wiedza o prawach natury jest probabilistyczna.


We wnioskowaniu Bayesowskim, funkcja rozkładu prawdopodobieństwa jest sposobem „zakodowania” niepewności odnośnie pewnych parametrów modelu lub konkurujących teorii czy modeli, przy danym stanie wiedzy reprezentowanym przez informację \(I\).

Podstawowe reguły operacyjne rachunku prawdopodobieństwa

Rachunek prawdopodobieństwa można operacyjnie sprowadzić do następujących reguł:

0. Każdemu zdarzeniu losowemu \(A\) (w rozumieniu Bayesowskim: zdarzeniu lub wypowiedzi obarczonymi niepewnością) można przypisać liczbę \( p(A|I) ;\,\, 0 \leq p(A|I) \leq 1 \) zwaną prawdopodobieństwem

1. Reguła sumy: dla zdarzenia A i jego dopełnienia zachodzi \( p(A|I) + p(\sim A|I) = 1 \)

2. Reguła iloczynu: prawdopodobieństwo zajścia łącznego zdarzeń wynosi: \( p(A,B | I) = p(A|B,I) P(B|I) = p(B|A,I) p(A|I) \)

Powyższe reguły implikują tzw. regułę marginalizacji \( p(B|I) = \sum_A p(A,B|I) \)


Mówi ona, że jeśli znamy prawdopodobieństwo łączne zdarzeń \(A\) i \(B\), to prawdopodobieństwo samego zdarzenia \(B\) – niezależnie od zdarzenia \(A\) uzyskamy sumując prawdopodobieństwo łączne po wszystkich możliwych wartościach \(A\).


Z reguły iloczynu wynika Twierdzenie Bayesa: \( p(A|B,I) = \frac{p(B|A,I) p(A|I)}{p(B|I)} \)

Wnioskowanie Bayesowskie

Przy odpowiedniej interpretacji, twierdzenie Bayesa pokazuje w jaki sposób nowe dane eksperymentalne/obserwacyjne modyfikują wstępne oczekiwania tj. prawdopodobieństwo a priori.

Oznaczając: \(H_i\) = zdanie deklarujące słuszność i-tej hipotezy \(I\) = zdanie reprezentujące informacje a priori \(D\) = zdanie reprezentujące dane (konkretne uzyskane dane!) przepisujemy wzór Bayesa w postaci

\( p(H_i|D,I) = \frac{p(D|H_i,I) p(H_i|I)}{p(D|I)} \)


gdzie: \(p(D|H_i, I)\) = prawdopodobieństwo otrzymania danych \(D\), pod warunkiem słuszności hipotezy \(H_i\) (tzw. Bayesowska funkcja wiarygodności )

\(p(H_i|I)\) = prawdopodobieństwo hipotezy a priori, tzn. co wiemy o hipotezie \(H_i\) zanim zobaczymy dane

\(p(H_i|D, I)\) = prawdopodobieństwo hipotezy a posteriori, w świetle uzyskanych danych \(D\), czyli stan naszej wiedzy o \(H_i\) po otrzymaniu danych

\(p(D|I)\) = czynnik normalizacyjny – niezależny od hipotez \(H_i\) , tzw. wiarygodność globalna, czy „ewidencja” (ang. evidence)

\( p(D|I) = \sum_i p(H_i|I) p(D|H_i,I) \)

Istotnie powyższy wzór zapewnia normalizację prawdopodobieństw a posteriori:

\( \sum_i p(H_i|D,I) = 1 \)

Należy podkreślić, że Bayesowskie podejście nie dyskredytuje podejścia częstościowego, argumenty częstościowe mogą być pomocne w ustalaniu wiarygodności Bayesowskiej lub prawdopodobieństw a apriorycznych (wyjściowych).

Bayesowskie podejście do wnioskowania statystycznego streścić można w następujący sposób:

• zawsze posiadamy a priori pewną wiedzę (informację \(I\)) odnośnie badanego zjawiska i na jej podstawie formułujemy hipotezy \(H_i\). Wiedzę tą wyraża prawdopodobieństwo a priori \(p(H_i|I)\) – prawdopodobieństwo jest tu miarą naszych wstępnych oczekiwań co do słuszności \(H_i\).

• w celu lepszego poznania badanego zjawiska, wykonuje się odpowiednio zaprojektowane badania odzwierciedlające nasze dotychczasowe jego zrozumienie i wynikające z niego przewidywania.

• czy i w jakim stopniu nowe badanie zwiększy nasze poznanie, jest zdeterminowane przez tzw. bayesowską funkcję wiarygodności \(p(D| H_i)\).

• po wykonaniu badań ich wyniki (dane \(D\)) modyfikują nasze oczekiwania wiodąc do tzw. prawdopodobieństwa a posteriori \(p(H_i|D)\), które wzmacnia lub osłabia nasze oczekiwania (w zależności czy jest większe czy mniejsze od a priorycznego).

Prawdopodobieństwo warunkowe \(p(Hi|D)\) mierzy stopień poparcia dawanego hipotezie \(H_i\) przez dane doświadczalne \(D\), tzn. mierzy w jakim stopniu dane \(D\) czynią rozróżnienie pomiędzy hipotezą \(H_i\) i innymi alternatywnymi hipotezami. Wzór Bayesa natomiast pokazuje w jaki sposób prawdopodobieństwo a priori \(p(H_i)\) wiąże się z prawdopodobieństwem a posteriori \(p(H_i |D)\):

\( p(H_i |D) = p(H_i) p(D | H_i) / p(D) \)


Przykłady wnioskowania Bayesowskiego z dyskretną przestrzenią hipotez

Przykład 3.1.1

W problemie rzutu monetą, stwierdzenie iż prawdopodobieństwo otrzymania orła (O) wynosi 1/2 jest w istocie wiarygodnością Bayesowską: \(p(O | moneta\; rzetelna) = 1/2\) tzn. wyrażeniem typu p(D|M) (dane: \(D\) = O, model: \(M\) = rzetelna moneta).

Przy innym rozważanym modelu – nazwijmy go M’ (tj. monety nierzetelnej – takiej która preferuje jeden z wyników np. O ) mielibyśmy: p(O|M’) = \( \pi \) oraz p(R | M’) = 1 – \( \pi \) Oczywiście wartość \( \pi \) byłaby tu identyfikatorem modelu M’ .

Przypuśćmy, że ktoś rzucił monetą 4 razy uzyskując za każdym razem orła \( D={4 x O} \). Rozumując częstościowo: Co możemy powiedzieć o rzetelności monety? Z jakim prawdopodobieństwem eksperyment ten dyskredytuje model \(M\) monety rzetelnej? Czy można wskazać model \( M’\) tzn. identyfikujące go prawdopodobieństwo \( \pi \) ?

W podejściu Bayesowskim rozważymy ten przykład później.

Przykład 3.1.2

Załóżmy, że mamy urnę w której jest 6 kul, które mogą być białe (B) lub czarne (Cz) wykluczamy sytuację jednakowego koloru. Nie wiemy natomiast jaki jest skład zawartości urny. Poznanie składu tj. proporcji kul Cz i B jest naszym celem badawczym. Potencjalne możliwości tzn. możliwe do pomyślenia modele tej sytuacji są następujące:

\( M1 = 5 \times B + 1 \times Cz \)

\( M2 = 4 \times B + 2 \times Cz \)

\( M3 = 3 \times B + 3 \times Cz \)

\( M4 = 2 \times B + 4 \times Cz \)

\( M5 = 1 \times B + 5 \times Cz \)

Każdy z modeli jest równoprawny, więc przypisujemy im takie samo prawdopodobieństwo aprioryczne:

\( P(M1) = P(M2) = … = P(M5) = 1/5 = 0.20 \)

Aby przekonać się, który model jest słuszny, losujemy 2 kule i powiedzmy że wynikiem jest \(D = {2 x B}\). Jaki jest stopień poparcia dany poszczególnym modelom przez ten wynik?

Zdroworozsądkowo czujemy że preferowany jest model \(M1\), a model \(M5\) jest przez ten wynik sfalsyfikowany. Dojdziemy do tego systematycznie poprzez zastosowanie wzoru Bayesa:

\( p(M_i|D) = \frac{ p(D|M_i)}{ p(D)}\,p(M_i) \)

Potrzebne nam będą wiarygodności Bayesowskie: \(p(2 \;B | M1) = 5/6 \times 4/5 = 0.667 \)

\(p(2 \; B | M2) = 4/6 \times 3/5 = 0.400 \)

\(p(2 \; B | M3) = 3/6 \times 2/5 = 0.200\)

\(p(2 \; B | M4) = 2/6 \times 1/5 = 0.067\)

\(p(2 \; B | M5) = 1/6 \times 0/5 = 0. \)

Widzimy tu formalnie, że model \(M5\) nie przewiduje wylosowania 2 białych kul, czyli w świetle uzyskanych danych, jego wiarygodność Bayesowska, a co za tym idzie także i prawdopodobieństwo a posteriori są zerowe.

Czynnik normalizacyjny:

\( p(D) = p( 2\;B) = \sum_i p(2\;B|M_i) p(M_i) = 0.667 \cdot 0.20 + 0.40 \cdot 0.20 + 0.067 \cdot 0.20 = 0.2668 \)


Prawdopodobieństwa a posteriori:

\( p(M_1|2\;B) = \frac{0.667 \cdot 0.20}{0.2668} = 0.502 \)

\( p(M_2|2\;B) = \frac{0.400 \cdot 0.20}{0.2668} = 0.300 \)

\( p(M_3|2\;B) = \frac{0.20 \cdot 0.20}{0.2668} = 0.150 \)

\( p(M_4|2\;B) = \frac{0.067 \cdot 0.20}{0.2668} = 0.050 \)

\( p(M_5|2\;B) = \frac{0. \cdot 0.20}{0.2668} = 0. \)

Widzimy zatem jak rozłożyła się alokacja poparcia dawanego różnym modelom przez uzyskane dane.


3.2 Procedury diagnostyczne w terminach Bayesowskich

W praktyce nierzadko mamy do czynienia z testami diagnostycznymi, tj. procedurami których wynik interpretowany jest jako „dodatni” \(T+ \) lub „ujemny” \(T- \) . Wynikiem procedury diagnostycznej może być liczba, sygnał lub zmiana barwy wskaźnika, ważne jest aby istniała jednoznaczna interpretacja wyniku \(T+\) lub \(T-\) .

Procedury diagnostyczne stosowane są w celu rozróżnienia pomiędzy 2 alternatywnymi (komplementarnymi w sensie logicznym) hipotezami \(H+\) oraz \(H-\).

Typowym przykładem testów diagnostycznych są testy stosowane w medycynie, np. test nosicielstwa wirusa HCV, próba wysiłkowa w diagnostyce choroby wieńcowej itp. Wówczas hipotezy \(H+\) i \(H-\) mają typowo znaczenie: \(H+ \) = choroba / nosicielstwo wirusa itp. \(H-\) = brak choroby / brak nosicielstwa wirusa itp.

Procedura diagnostyczna scharakteryzowana jest przez zespół prawdopodobieństw warunkowych przytoczonych w tabeli poniżej:


Jak widać z czterech przytoczonych wielkości tylko dwie są niezależne, zatem test diagnostyczny scharakteryzowany jest w pełni przez swoistość i czułość. Lub też alternatywnie poprzez częstość wyników fałszywie ujemnych oraz fałszywie dodatnich. Ten drugi alternatywny sposób charakteryzowania testu jest typowy w obszarze testowania hipotez statystycznych.

Czułość i swoistość są wewnętrznymi cechami procedury diagnostycznej, natomiast w praktyce interesuje nas interpretacja wyników dodatnich \(T+\) oraz ujemnych \(T-\), czyli wartość dodana wyników \(T+\) oraz \(T-\).

Owa wartość dodana reprezentowana jest łącznie przez dwa prawdopodobieństwa a posteriori, odpowiednio: \(p(H+ | T+)\) oraz \(p(H- | T-)\). W biostatystyce noszą one miano, odpowiednio: wartości predyktywnej wyników dodatnich oraz wartości predyktywnej wyników ujemnych.


Są one dane wzorami:

\( p(H+|T+) = \frac{p(T+|H+) p(H+)}{p(T+|H+) p(H+)+ p(T+|H-) p(H-)} \)

\( p(H-|T-) = \frac{p(T-|H-) p(H-)}{p(T-|H-) p(H-)+ p(T-|H+) p(H+)} \)


Do zastosowania powyższych wzorów, oprócz czułości i swoistości testu należy znać prawdopodobieństwo a priori \(p(H+)\) o którym wiedzę czerpiemy z częstości występowania danej choroby (H+) czy nosicielstwa wirusa w populacji generalnej.


Uwaga

Weryfikacja hipotez statystycznych w klasycznej statystyce odbywa się w pełnej analogii do testów diagnostycznych. Podana wyżej tabela zachowuje ważność, przy zmianie oznaczeń \((H+,H-)\) na, odpowiednio \((H_0, H_1)\). Klasycznie \(H�_0\) jest symbolem tzw. hipotezy zerowej, \(H_1\) tzw. hipotezy alternatywnej. Tu także procedura wnioskowania tj. test statystyczny scharakteryzowana jest przez dwie liczby (prawdopodobieństwa warunkowe): 1. Prawdopodobieństwo wyników fałszywie dodatnich; nazywa się ono historycznie prawdopodobieństwem błędu I rodzaju (oznaczane \(\alpha\)) 2. Prawdopodobieństwo wyników fałszywie ujemnych; historycznie nazywane prawdopodobieństwem błędu II rodzaju (oznaczane \(\beta\)) Ich pochodne wielkości to: czułość – zwana mocą testu \((1 – \beta)\) oraz swoistość \((1 – \alpha)\) Różnicą jest jedynie to, że interpretacja testu jako dodatniego czy ujemnego związana jest z założonym prawdopodobieństwem błędu I rodzaju, zwanym także poziomem istotności testu.


3.2.1 Przykład Bayesowskiego wnioskowania w procesie diagnostycznym

Do lekarza zgłasza się mężczyzna uskarżający się na nadmierną męczliwość, w wywiadzie podaje chorobę wrzodową oraz epizody kamicy nerkowej. Lekarz rozważa jako jedną z możliwości nadczynność przytarczyc, pomimo iż nie jest to częsta choroba. Jej częstość występowania w populacji generalnej, na podstawie literatury, może być oceniona na 2%. Jest to zarazem nasze prawdopodobieństwo a priori \(p(H+)\). Zleca oznaczenie poziomu wapnia w surowicy (aby wykluczyć wstępne rozpoznanie). Wynik badania jest jednak pozytywny tzn. poziom wapnia jest podniesiony (\(T+\)).

Jak wynik badania zmodyfikował prawdopodobieństwo a priori tzn. stopień poparcia dawanego wyjściowej diagnozie? Załóżmy, że test podniesionego poziomu wapnia ma czułość 90% (tzn. \(p(T+ | H+) = 0.90\) ) i swoistość 95% (tzn. \( p(T- | H- ) = 0.95\)). Wnioskujemy stąd prawdopodobieństwo wyników fałszywie dodatnich \(p(T+ | H- ) = 0.05\) i posiadamy wszelkie dane aby zastosować wzór Bayesa:

\( p(H+|T+) = \frac{p(T+|H+) p(H+)}{p(T+|H+) p(H+)+ p(T+|H-) p(H-)} = \frac{ 0.90 \times 0.02} {0.90 \times 0.02 + 0.05 \times 0.98} = 0.269 \approx 27 \% \)


Widzimy jak wzrósł stopień poparcia dla rozpoznania pierwotnego po uzyskaniu dodatniego wyniku testu. Niskie prawdopodobieństwo a priori 2% przeobraziło się w znacznie (dziesięciokrotnie) wyższe prawdopodobieństwo a posteriori 27% .

Kolejny krok w procesie diagnostycznym

Mimo, że prawdopodobieństwo a posteriori jest znacznie większe od początkowego – a apriorycznego, daleko mu jeszcze do pewności (100%). Zatem diagnosta zleca kolejne, badanie tym razem już swoiste dla wstępnej diagnozy. Badaniem tym jest oznaczenie poziomu parathormonu (PTH) – hormonu produkowanego przez przytarczyce. Gdyby prawdziwa była diagnoza nadczynności tego gruczołu, spodziewamy się podniesionego poziomu PTH (T+), w przeciwnym przypadku uznajemy test za ujemny (T-).

Załóżmy, że test PTH ma swoistość 98% (tzn. \(p(T- | H-) = 0.98\)) i czułość 95% (tzn.\(p(T+ | H+) = 0.95\)), prawdopodobieństwo wyników fałszywie dodatnich wynosi więc \(p(T+ | H-) = 0.02 \) natomiast jako prawdopodobieństwo a aprioryczne przyjmujemy, zgodnie z Bayesowską filozofią wnioskowania, poprzednie prawdopodobieństwo końcowe \(p(H+) = 27 \% = 0.27Parser nie mógł rozpoznać (Nie można utworzyć lub zapisywać w tymczasowym katalogu dla wzorów matematycznych): . W jakim stopniu dodatni wynik testu zmodyfikuje stopień poparcia dawanego diagnozie? Odpowiedź tkwi w formule Bayesa: <math> p(H+|T+) = \frac{p(T+|H+) p(H+)}{p(T+|H+) p(H+)+ p(T+|H-) p(H-)} = \frac{ 0.95 \times 0.269} {0.95 \times 0.269 + 0.02 \times 0.731} = 0.9449 \approx 94.5 \% <\math> Silny wzrost prawdopodobieństwa a posteriori obrazuje rozstrzygające znaczenie wykrycia podwyższonego poziomu parathormonu dla ostatecznej diagnozy. === Przykład 3.2.2 === Kobieta posiadająca brata chorego na hemofilię spodziewa się dziecka. Przypomnijmy że hemofilia jest poważnym zaburzeniem krzepliwości krwi uwarunkowanym genetycznie tzn. sprzężonym z chromosomem X. Zatem może potencjalnie być ona nosicielką hemofilii (<math>H+\)). Szanse tego (czyli prawdopodobieństwo a priori) wynoszą \(p(H+) = 0.5\) (albo jest albo nie jest nosicielką). Aby się o tym przekonać wykonuje ona test DNA, który jest swoisty na poziomie 90% i czuły na poziomie 80%. Załóżmy, że wynik testu jest ujemny (\(T-\)). Jak wpływa to na stopień jej oczekiwań, że może być nosicielką. Innymi słowy, jakie jest prawdopodobieństwo a posteriori \(p(H+ | T-)\) ? Odpowiedź daje wzór Bayesa: \( p(H+|T-) = \frac{p(T-|H+) p(H+)}{p(T-|H+) p(H+)+ p(T-|H-) p(H-)} = \frac{ 0.1 \times 0.5} {0.1 \times 0.5 + 0.8 \times 0.5} = 0.11 = 11 \% \) Czyli prawdopodobieństwo nosicielstwa – innymi słowy ryzyko zmalało prawie pięciokrotnie. Mimo, że wynik ten znacznie ją uspokoił, postanowiła wykonać kolejny test i złóżmy, że teraz wypadł pozytywnie \(T+\). Jak zmieniło się teraz prawdopodobieństwo a posteriori, czyli jakie jest obecnie ryzyko bycia nosicielem? Znów stosujemy wzór Bayes, pamiętając jednak, że rolę prawdopodobieństwa a priori \(P(H+)\) pełni teraz wynik poprzedni, czyli poprzednie prawdopodobieństwo wynikowe (a posteriori). Jest to w pełni zgodne z filozofią wnioskowania Bayesowskiego: na wstępne subiektywne oczekiwania tzn. prawdopodobieństwa a aprioryczne składa się posiadana wyjściowo wiedza. Zauważmy, że poprzedni poziom oczekiwań wynosił 0.5 nie tylko dlatego, że nacechowany był niewiedzą o stanie faktycznym ale także z powodu już istniejącej wiedzy na temat natury hemofilii. Zatem stosujemy po raz kolejny wzór Bayesa, obecnie w postaci: \( p(H+|T+) = \frac{p(T+|H+) p(H+)}{p(T+|H+) p(H+)+ p(T+|H-) p(H-)} = \frac{ 0.90 \times 0.11} {0.90 \times 0.11 + 0.20 \times 0.89} = 0.357 = 35.7 \% \) Sens wyniku jest zrozumiały: oczywiście ryzyko wzrosło (3.5 krotnie) ale nadal jest mniejsze od wstępnych oczekiwań, bo przecież wśród wykonanych badań mieliśmy wynik ujemny! Zdrowy rozsądek podpowiada, że dwa sprzeczne wyniki (\(T+\) oraz \(T-\)) są niekonkluzywne, więc w takich sytuacjach wykonuje się trzecie – rozstrzygające badanie. Powiedzmy, że wypada ono negatywnie (\(T-\)). Jaki jest teraz poziom ryzyka bycia nosicielem? Stosujemy po raz kolejny wzór Bayesa, w celu uaktualnienia racjonalnego zaufania: \( p(H+|T-) = \frac{p(T-|H+) p(H+)}{p(T-|H+) p(H+)+ p(T-|H-) p(H-)} = \frac{ 0.1 \times 0.357} {0.1 \times 0.357 + 0.8 \times 0.643} = 0.065 = 6.5 \% \) Teraz widać, że wstępne a aprioryczne prawdopodobieństwo (ryzyko) uległo w sumie ok. 10 krotnej redukcji, co powinno w pełni uspokoić pacjentkę. Jako ćwiczenie dobrze jest przeanalizować w analogiczny sposób inne konfiguracje dwóch negatywnych i jednego pozytywnego wyniku tj. (T+,T-,T-) oraz (T-, T- , T+). Przykład ten ilustruje także, następujące fakty. Po pierwsze zdroworozsądkową regułę iż przy dwóch sprzecznych wynikach testu trzeci jest decydujący. Po drugi pokazuje, że stopień zaufania w wynik rozstrzygający jest różny od naiwnego wniosku 2/3. Po trzecie, że ów stopień zaufania zależy od jakości testu, tzn. jego czułości i swoistości, które to wielkości były uwzględniane w naszych obliczeniach jako \(p(T+|H+)\) oraz \(p(T-|H-)\). == 4. Bayesowska teoria estymacji parametrów modelu == Często mamy do czynienia z problemem, w którym pewien model jest z założenia słuszny, a przestrzeń hipotez dotyczy wartości parametrów tego modelu. Na przykład w problemie regresji liniowej zakładamy liniową zależność pomiędzy zmienną objaśnianą \(Y\) i zmienną objaśniającą \(X\). Zatem \( M: \;\; Y = a X + b \) jest modelem, jego parametrami są tu \(a\) i \( b\) czyli współczynnik kierunkowy (ang. slope) oraz wyraz wolny (ang. intercept). Jeśli parametry modelu nie zostaną podane explicite, będziemy je oznaczać ogólnie symbolem \( \theta \). Punktem wyjścia jest dla nas, jak zwykle wzór Bayesa