Statystyka w ujęciu Bayesowskim

Z Skrypty dla studentów Ekonofizyki UPGOW

Wersja Marek Biesiada (dyskusja | edycje) z dnia 17:57, 13 lut 2011

(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)

Spis treści

1 Statystyka jako wnioskowanie w warunkach niepewności
2 Problemy fundamentalne: jak rozumieć prawdopodobieństwo?
- 2.1 Podstawowe reguły operacyjne rachunku prawdopodobieństwa
3 Wnioskowanie Bayesowskie
- 3.1 3.1 Przykłady wnioskowania Bayesowskiego z dyskretną przestrzenią hipotez

Statystyka jako wnioskowanie w warunkach niepewności

We współczesnym ujęciu statystyka rozumiana jest jako dyscyplina umożliwiająca wnioskowanie w warunkach niepewności.

Rola wnioskowania dedukcyjnego w nauce jest ugruntowana od starożytności. Opiera się ono na logice, która dostarcza reguł wnioskowania. Wywodzą się one zazwyczaj z tautologii. W matematyce budując jakiś określony dział, np. geometrię czy algebrę liniową, punktem wyjścia są aksjomaty – zdania przyjmowane jako oczywiste. Aksjomaty wprowadzają podstawowe elementy (pojęcia) danej teorii, definiują jej zakres, a reguły wnioskowania służą do formułowania twierdzeń (wyprowadzania ich z aksjomatów). Z kolei w naukach empirycznych zajmujących się badaniem jakiegoś obszaru rzeczywistości, odkrywana tam struktura ujmowana jest pod postacią praw, których słuszności staramy się dociec formułując testowalne predykcje (przewidywania). Niestety, testy eksperymentalne przewidywań teoretycznych nie dostarczają prostych zero-jedynkowych odpowiedzi „prawda” lub „fałsz”. Nasz stan wiedzy zawsze jest niekompletny, zawsze możliwy jest do pomyślenia bardziej wyrafinowany eksperyment, a przyrządy pomiarowe zawsze mają skończoną dokładność. Wnioskowanie o słuszności teorii czy modelu opisującego jakiś obszar rzeczywistości w warunkach niepełnej wiedzy (tj. częściowej ignorancji, niepewności) jest przedmiotem statystyki.

Statystyka, w swej koncepcji, oparta jest na rachunku prawdopodobieństwa, w teorii prawdopodobieństwa zaś – od momentu jej powstania – istnieją dwie szkoły pojmowania, czym operacyjnie (w praktyce) jest prawdopodobieństwo. Pierwsza z nich tzw. częstościowa – pochodząca od Abrahama de Moivre’a – twierdzi iż prawdopodobieństwo wystąpienia zdarzenia losowego w praktyce jest reprezentowane przez częstość występowania tego zdarzenia w bardzo dużej liczbie identycznych prób. Ale co począć, gdy rozważane zdarzenie, zjawisko, sytuacja są z natury niepowtarzalne? A niepowtarzalny jest świat w którym żyjemy, lub czasy w których żyjemy, każdy człowiek jest niepowtarzalny i w wielu przypadkach zdroworozsądkowego używania terminu „prawdopodobieństwo” trudno byłoby uzasadnić jego poprawność na gruncie częstościowej definicji. Czy, na przykład stwierdzenie typu: „prawdopodobieństwo awarii współczesnej elektrowni jądrowej wynosi jeden na milion” ma sens? W rozumieniu częstościowym – nie ! W historii ludzkości nie zbudowano jeszcze miliona elektrowni jądrowych, a spośród tych które zbudowano kilka uległo mniej lub bardziej poważnym awariom. Jednak czujemy sensowność przytoczonych słów jako określenie miary niezawodności technologii konstrukcji elektrowni jądrowych.

Tu pojawia się druga szkoła pojmowania prawdopodobieństwa, której autorem jest Thomas Bayes. Zgodnie z tą szkołą, prawdopodobieństwo (bezwarunkowe, tzw. a priori) wystąpienia zdarzenia losowego jest niczym innym jak miarą racjonalnego przekonania, że dane zdarzenie wystąpi. Chcąc zmienić (zmodyfikować, wzbogacić) nasze przekonania wykonujemy eksperymenty (obserwacje) dotyczące interesującego nas zdarzenia. Wyniki badań przekształcają prawdopodobieństwo a priori (wstępne oczekiwania) w tzw. prawdopodobieństwo a posteriori (prawdopodobieństwo wynikowe, miara racjonalnego oczekiwania wystąpienia zdarzenia po uzyskaniu wyników badań). Generalnie w taki sposób odbywa się nasze poznawanie świata. Zwolennikami filozofii Bayesa byli tacy wielcy matematycy jak P.S. Laplace czy H. Poincare lub wybitny ekonomista John Keynes, ale dopiero obecnie rozwój technik numerycznych umożliwił przekształcenie się Bayesowskiego podejścia w poważny, awangardowy nurt współczesnej statystyki, umożliwiający stawianie i rozwiązywanie problemów niedostępnych dla klasycznej statystyki częstościowej.

Problemy fundamentalne: jak rozumieć prawdopodobieństwo?

Czym jest prawdopodobieństwo? W klasycznym ujęciu tzw. „częstościowym” prawdopodobieństwo zdarzenia A jest częstością występowania tego zdarzenia w długiej serii identycznych prób, czyli stosunkiem \(P(A) = \frac{n_A}{n} \) gdzie \(n_A\) reprezentuje liczbę zdarzeń \(A\) w \(n\) – próbach, gdzie „\(n\) jest duże” tzn. „\(n\) dąży do nieskończoności”. Definicja taka jest niesatysfakcjonująca z kilku powodów. Po pierwsze, co to znaczy że próby są identyczne? To znaczy, że szansa (czyli potocznie rozumiane „prawdopodobieństwo”) wystąpienia zdarzenia \(A\) w każdej z prób jest taka sama – zatem definiujemy pojęcie prawdopodobieństwa w istocie odwołując się do niego samego. W logice jest to fundamentalny błąd zwany petitio principium. Po drugie definicja taka nie ma zastosowania do zdarzeń niepowtarzalnych. Na przykład stwierdzenie historyka, typu: „ na podstawie zapisków historycznych, z dużym prawdopodobieństwem można stwierdzić iż podczas koronacji Władysława Jagiełły nie padał deszcz” w myśl częstościowej koncepcji prawdopodobieństwa jest kompletnie pozbawiona sensu. Z drugiej jednak strony nie widać w tej wypowiedzi absurdu, tym bardziej jeśli wynika ona z analizy konkretnych danych historycznych i znając ów szerszy kontekst można taką tezę uznać nie tylko za sensowną, ale wręcz za prawdziwą. Po trzecie, definicja częstościowa dotyczy pewnego zachowania granicznego, i to w dodatku „granicznego” w specyficzny, słabo określony sposób. Mianowicie nie jest to granica w zwykłym matematycznym sensie znanym z analizy (wręcz można pokazać, że taka „zwykła” granica nie istnieje) i nie jest wcale oczywistym kiedy \(n\) będzie dostatecznie duże aby mierzona częstość \(n_A/n\) faktycznie reprezentowała prawdopodobieństwo. Znacznie szerszą, nieuwikłaną w wyżej wymienione problemy, perspektywą jest Bayesowskie rozumienie prawdopodobieństwa jako miary racjonalnego zaufania w prawdziwość danej tezy, zaufania uwarunkowanego posiadaną informacją. W tym kontekście np. przestajemy mieć problem z wypowiedzią o stanie pogody podczas koronacji Jagiełły.

Zalety Bayesowskiego rozumienia prawdopodobieństwa:

1. Ma zastosowanie zarówno do zjawisk powtarzalnych jak i niepowtarzalnych, tzn. pytanie: „Z jakim prawdopodobieństwem będzie jutro padał deszcz?” jest w pełni sensownym pytaniem probabilistycznym.

2. Prawdopodobieństwo staje się teraz terminem opisu niepewności niezależnie od jej pochodzenia. Na równych prawach traktowane są tzw. „błędy statystyczne” tzn. niepewność wynikająca z błędów pomiarowych czyli ze skończonej dokładności przyrządów oraz „błędy systematyczne” czyli niepewność związana z naszą niewiedzą odnośnie skądinąd czysto deterministycznych procesów.

3. Losowość, czy przypadkowość zjawisk rozumiana jest tu jako wyraz niepełnej informacji jaką posiadamy.

4. W odróżnieniu od podejścia częstościowego, Bayesowskie rozumienie prawdopodobieństwa nie odnosi się do granicznych własności estymatorów czy statystyk. Ma ono zastosowanie zarówno w przypadkach gdy podejście częstościowe ma zastosowanie, jak również w przypadkach gdzie nie ma ono sensu.

5. Bayesowskie podejście automatycznie radzi sobie z nieistotnymi parametrami (ang. nuisance parameters) w modelach statystycznych

6. W podejściu Bayesowskim istotna jest informacja aprioryczna, np. ważne przesłanki że masa, czy objętość są zawsze dodatnie. W rzeczy samej, ignorowanie lub pomijanie takich apriorycznych faktów prowadzić może do fałszywych wniosków.

7. Statystyka w ujęciu Bayesowskim zawsze (tj. w obliczeniach i interpretacji) odnosi się tylko do danych, które faktycznie zostały otrzymane, podczas gdy statystyka częstościowa odnosi się (w swej interpretacji) do rozkładu wyników, które są potencjalnie możliwe, lecz de facto nie zostały zaobserwowane.

Różnicę pomiędzy podejściem częstościowym i Bayesowskim można syntetycznie opisać następująco:

W podejściu częstościowym, gdy piszemy prawdopodobieństwo \(p(X)\), to \(X\) oznacza zmienną losową czyli taką, która może przyjmować różne wartości w nieskończonym zespole (wyimaginowanym ansamblu) identycznych eksperymentów. Eksperymenty te są potencjalne, wirtualne, wyimaginowane. \(X\) ma w tym ansamblu rozkład prawdopodobieństwa \(p\), czyli częstość znalezienia wartości \(x\) w przedziale \([x, x+dx]\) wynosi \(p(x)dx\).

W podejściu Bayesowskim \( X\) ma pewną ustaloną, konkretną – lecz obarczoną niepewnością – wartość, natomiast \(p(x)dx\) opisuje (warunkowy) rozkład miary racjonalnego zaufania co do wartości \(x\). Rozkład ten jest warunkowy, gdyż uwarunkowany jest posiadaną informacją – ogólnym kontekstem problemu oraz danymi z eksperymentu. W nauce dostępna informacja jest zawsze niepełna, więc nasza wiedza o prawach natury jest probabilistyczna.

We wnioskowaniu Bayesowskim, funkcja rozkładu prawdopodobieństwa jest sposobem „zakodowania” niepewności odnośnie pewnych parametrów modelu lub konkurujących teorii czy modeli, przy danym stanie wiedzy reprezentowanym przez informację \(I\).

Podstawowe reguły operacyjne rachunku prawdopodobieństwa

Rachunek prawdopodobieństwa można operacyjnie sprowadzić do następujących reguł:

0. Każdemu zdarzeniu losowemu \(A\) (w rozumieniu Bayesowskim: zdarzeniu lub wypowiedzi obarczonymi niepewnością) można przypisać liczbę \( p(A|I) ;\,\, 0 \leq p(A|I) \leq 1 \) zwaną prawdopodobieństwem

1. Reguła sumy: dla zdarzenia A i jego dopełnienia zachodzi \( p(A|I) + p(\sim A|I) = 1 \)

2. Reguła iloczynu: prawdopodobieństwo zajścia łącznego zdarzeń wynosi: \( p(A,B | I) = p(A|B,I) P(B|I) = p(B|A,I) p(A|I) \)

Powyższe reguły implikują tzw. regułę marginalizacji \( p(B|I) = \sum_A p(A,B|I) \)

Mówi ona, że jeśli znamy prawdopodobieństwo łączne zdarzeń \(A\) i \(B\), to prawdopodobieństwo samego zdarzenia \(B\) – niezależnie od zdarzenia \(A\) uzyskamy sumując prawdopodobieństwo łączne po wszystkich możliwych wartościach \(A\).

Z reguły iloczynu wynika Twierdzenie Bayesa: \( p(A|B,I) = \frac{p(B|A,I) p(A|I)}{p(B|I)} \)

Wnioskowanie Bayesowskie

Przy odpowiedniej interpretacji, twierdzenie Bayesa pokazuje w jaki sposób nowe dane eksperymentalne/obserwacyjne modyfikują wstępne oczekiwania tj. prawdopodobieństwo a priori.

Oznaczając: \(H_i\) = zdanie deklarujące słuszność i-tej hipotezy \(I\) = zdanie reprezentujące informacje a priori \(D\) = zdanie reprezentujące dane (konkretne uzyskane dane!) przepisujemy wzór Bayesa w postaci

\( p(H_i|D,I) = \frac{p(D|H_i,I) p(H_i|I)}{p(D|I)} \)

gdzie: \(p(D|H_i, I)\) = prawdopodobieństwo otrzymania danych \(D\), pod warunkiem słuszności hipotezy \(H_i\) (tzw. Bayesowska funkcja wiarygodności )

\(p(H_i|I)\) = prawdopodobieństwo hipotezy a priori, tzn. co wiemy o hipotezie \(H_i\) zanim zobaczymy dane

\(p(H_i|D, I)\) = prawdopodobieństwo hipotezy a posteriori, w świetle uzyskanych danych \(D\), czyli stan naszej wiedzy o \(H_i\) po otrzymaniu danych

\(p(D|I)\) = czynnik normalizacyjny – niezależny od hipotez \(H_i\) , tzw. wiarygodność globalna, czy „ewidencja” (ang. evidence)

\( p(D|I) = \sum_i p(H_i|I) p(D|H_i,I) \)

Istotnie powyższy wzór zapewnia normalizację prawdopodobieństw a posteriori:

\( \sum_i p(H_i|D,I) = 1 \)

Należy podkreślić, że Bayesowskie podejście nie dyskredytuje podejścia częstościowego, argumenty częstościowe mogą być pomocne w ustalaniu wiarygodności Bayesowskiej lub prawdopodobieństw a apriorycznych (wyjściowych).

Bayesowskie podejście do wnioskowania statystycznego streścić można w następujący sposób:

• zawsze posiadamy a priori pewną wiedzę (informację \(I\)) odnośnie badanego zjawiska i na jej podstawie formułujemy hipotezy \(H_i\). Wiedzę tą wyraża prawdopodobieństwo a priori \(p(H_i|I)\) – prawdopodobieństwo jest tu miarą naszych wstępnych oczekiwań co do słuszności \(H_i\).

• w celu lepszego poznania badanego zjawiska, wykonuje się odpowiednio zaprojektowane badania odzwierciedlające nasze dotychczasowe jego zrozumienie i wynikające z niego przewidywania.

• czy i w jakim stopniu nowe badanie zwiększy nasze poznanie, jest zdeterminowane przez tzw. bayesowską funkcję wiarygodności \(p(D| H_i)\).

• po wykonaniu badań ich wyniki (dane \(D\)) modyfikują nasze oczekiwania wiodąc do tzw. prawdopodobieństwa a posteriori \(p(H_i|D)\), które wzmacnia lub osłabia nasze oczekiwania (w zależności czy jest większe czy mniejsze od a priorycznego).

Prawdopodobieństwo warunkowe \(p(Hi|D)\) mierzy stopień poparcia dawanego hipotezie \(H_i\) przez dane doświadczalne \(D\), tzn. mierzy w jakim stopniu dane \(D\) czynią rozróżnienie pomiędzy hipotezą \(H_i\) i innymi alternatywnymi hipotezami. Wzór Bayesa natomiast pokazuje w jaki sposób prawdopodobieństwo a priori \(p(H_i)\) wiąże się z prawdopodobieństwem a posteriori \(p(H_i |D)\):

\( p(H_i |D) = p(H_i) p(D | H_i) / p(D) \)

3.1 Przykłady wnioskowania Bayesowskiego z dyskretną przestrzenią hipotez

Przykład 3.1.1

W problemie rzutu monetą, stwierdzenie iż prawdopodobieństwo otrzymania orła (O) wynosi 1/2 jest w istocie wiarygodnością Bayesowską: \(p(O | moneta\; rzetelna) = 1/2\) tzn. wyrażeniem typu \(p(D|M)\) (dane: \(D\) = O, model: \(M\) = rzetelna moneta).

Przy innym rozważanym modelu – nazwijmy go \(M’\) (tj. monety nierzetelnej – takiej która preferuje jeden z wyników np. O ) mielibyśmy:

\(p(O|M’) = \pi\) oraz \(p(R | M’) = 1 – \pi \)

Oczywiście wartość \( \pi \) byłaby tu identyfikatorem modelu \(M’\) .

Przypuśćmy, że ktoś rzucił monetą 4 razy uzyskując za każdym razem orła \( D={4 x O} \). Rozumując częstościowo: Co możemy powiedzieć o rzetelności monety? Z jakim prawdopodobieństwem eksperyment ten dyskredytuje model \(M\) monety rzetelnej? Czy można wskazać model \( M’\) tzn. identyfikujące go prawdopodobieństwo \( \pi \) ?

W podejściu Bayesowskim rozważymy ten przykład później.

Przykład 3.1.2

Załóżmy, że mamy urnę w której jest 6 kul, które mogą być białe (B) lub czarne (Cz) wykluczamy sytuację jednakowego koloru. Nie wiemy natomiast jaki jest skład zawartości urny. Poznanie składu tj. proporcji kul Cz i B jest naszym celem badawczym. Potencjalne możliwości tzn. możliwe do pomyślenia modele tej sytuacji są następujące:

\( M1 = 5 x B + 1 x Cz \)

\( M2 = 4 x B + 2 x Cz \)

\( M3 = 3 x B + 3 x Cz \)

\( M4 = 2 x B + 4 x Cz \)

\( M5 = 1 x B + 5 x Cz \)