Z Skrypty dla studentów Ekonofizyki UPGOW
Spis treści[ukryj] |
PRÓBY I SCHEMAT BERNOULLIEGO
Próby i schemat Bernoulliego

Próbą Bernoulliego nazywamy dowolne doświadczenie losowe, w którym pytam tylko o dwa możliwe wyniki, będące zdarzeniami przeciwnymi. Jeden z wyników nazywam sukcesem, drugi - porażką. Przykładów takich doświadczeń mamy tysiące. Mogą one być bardziej lub mniej rzeczywiste, część może być bardziej lub mniej losowe. Używam tu nieprecyzyjnych określeń, ale czytelnik będzie wiedział o co mi chodzi po zapoznaniu się z poniższymi przykładami.
W rzucie monetą otrzymam orła czy reszkę; w rzucie kostką otrzymam parzystą lub nieparzystą liczbę oczek; dzwonię do przyjaciela: uzyskam połączenie lub nie; strzelam do tarczy: trafię w koło zawierające co najmniej 8 lub nie; pojadę do kina autobusem: odjedzie autobus planowo (plus minus 5 minut) lub nie; czy w Będzinie 15 marca pierwsze urodzone dziecko będzie chłopcem czy nie; itd.
Nie wszystkie te przykłady są idealną próbą Bernoulliego. Ale często idealizujemy, zakładając że tak jest. Metoda idealizacji jest nagminnie stosowana (o dziwo!) w naukach ścisłych. Dla przykładu, w mechanice klasycznej badamy ruch punktu materialnego. Takim punktem materialnym może być kulka metalowa, kamień, a czasami nawet lokomotywa. Więc my też będziemy zakładali, że nasze przykłady są idealnymi próbami Bernoulliego.
Teraz przeprowadzamy doświadczenie polegające na n-krotnym powtórzeniu ustalonej próby Bernoulliego, przy założeniu że wynik każdej próby nie zależy od wyników prób poprzednich i nie wpływa na wyniki prób następnych. Niezależność prób polega na tym, że dowolny wynik jednej próby nie wpływa na prawdopodobieństwo pojawienia się każdego z wyników w następnej próbie. Schematem n-prób Bernoulliego nazywamy ciąg n-niezależnych powtórzeń tej samej próby. Widać z powyższych przykładów prób Bernoulliego, że w każdej z n prób Bernoulliego przestrzeń probabilistyczną rozbijamy na dwa podzbiory A_1 i jego dopełnienie A_2, to znaczy
\Omega_i = A_1 \cup A_2, \; \;\ \; A_1 \cap A_2 = \empty
Mamy dwa zdarzenia: zdarzenie A_1 które nazwiemy umownie sukcesem i zdarzenie A_2 które nazwiemy umownie porażką. Mamy pojedyńcze doświadczenie E i w wyniku tego doświadczenie możemy otrzymać albo sukces A_1 albo porażkę A_2. Niech prawdopodobieństwo sukcesu wynosi p=p_1 i porażki q=p_2, czyli
P(A_1) =p_1 =p, \; \; \; \; \;\;\;\;\; P(A_2) = p_2 = q, \; \;\;\;\;\; \; \; p_1+p_2=p+q=1
W pojedyńczej próbie definiujemy zmienną losową \xi_i w następujący sposób:
\xi_i(A_1) = 1\;
\xi_i(A_2) = 0\;
Zauważmy, że prawdopodobieństwo tego że \xi_i=1 wynosi tyle samo co prawdopodobieństwo tego że otrzymamy A_1, czyli
Pr (\xi_i = 1) = P(A_1) = p_1\;
Podobnie, prawdopodobieństwo tego że \xi_i=0 wynosi tyle samo co prawdopodobieństwo tego że otrzymamy A_2, czyli
Pr (\xi_i = 0) = P(A_2) = p_2 \;
Ponieważ zmienna losowa przyjmuje dwie wartości, więc jej dystrybuanta składa się z dwóch schodków:
F_{\xi_i}(x) = p_1 \theta(x-1) + p_2 \theta (x-0) = p \theta(x-1) + q\theta (x-0)
Pytamy, jakie jest prawdopodobieństwo tego, że w schemacie Bernoulliego o n próbach sukces otrzyma się dokładnie k razy? Albo pytamy równoważnie: jakie jest prawdopodobieństwo tego, że w n niezależnych doświadczeniach zdarzenie A_1 pojawi się k razy? W schemacie n-prób Bernoulliego, ilość sukcesów jest nową zmienną losową, którą oznaczymy przez \eta, Jakie wartości może przyjmować \eta? To jest to samo pytanie: ile razy mogę otrzymać orła w n rzutach monetą? Oczywiście orła mogę otrzymać 0 razy, albo 1 raz, może 2 razy albo 3 razy, 4 razy, ...., n razy. Więc matematycznie mogę to sformułować definiując zmienna losową \eta w następujący sposób:
\eta = \xi_1 + \xi_2 + \xi_3 + ... + \xi_n\;
Każda ze zmiennych losowych \xi_i = (1, 0), więc
\eta = \{0, 1, 2, ..., n\}\;
Pytanie o to jakie jest prawdopodobieństwo tego, że w schemacie Bernoulliego o n próbach otrzymamy k razy sukces jest pytaniem o to jest prawdopodobieństwo tego że zmienna losowa \eta = k . Odpowiedź jest znana od wieków: prawdopodobieństwo to dane jest przez rozkład dwumianowy:
P\{\eta = k\} = Pr\{A_1 \; \mbox{zachodzi} \; k \; \mbox{razy}\} = p_n(k) = {n \choose k} \cdot p^k \cdot q^{n-k} = \frac{n!}{k! (n-k)!} \cdot p^k \cdot q^{n-k}
Warunek unormowania ma postać
\sum_{k=0}^n p_n(k) = \sum_{k=0}^n {n \choose k} \cdot p^k \cdot q^{n-k} =1
Przepiszemy ten rozkład jeszcze raz wprowadzając oznaczenia:
k_1=k, \; \;\; \;k_2 = n- k = n -k_1 \;
Wówczas
Zapis ten nie jest standardowy (i miejscami mylący) ale w wyrażeniu tym k_1 oraz k_2 występują w symetryczny sposób. Pamietajmy też, że
p_1+ p_2=1, \; \; \; k_1 +k_2=n
Taka symetryczna forma zapisu pozwala na łatwe uogólnienie schematu Bernoulliego. Poniżej przedstawimy uogólniony schemat Bernoulliego który ma zasadnicze znaczenie w problemie zależności lub niezależności zmiennych losowych oraz w teorii procesów stochastycznych.
Ważne przykłady prób i schematów Bernoulliego
1. Rzut monetą (możliwe wyniki: orzeł-reszka) lub kostką do gry (możliwe wyniki: parzysta ilość oczek-nieparzysta ilość oczek)
W tym przypadku
p = q = \frac{1}{2}
oraz prawdopodobieństwo tego, że w n rzutach wypadnie k razy orzeł (lub parzysta liczba oczek) wynosi
P\{\eta = k\} = p_n(k) = \frac{1}{2^n} {n \choose k}
2. Losowo ktoś do mnie zadzwoni w przedziale czasowym [0, T]. Sukcesem nazwę zdarzenie A polegające na tym, że ktoś do mnie zadzwoni w przedziale (t_1, t_2) \subset [0, T] . Prawdopodobieństwo tego, że osoba ta zadzwoni akurat w przedziale (t_1, t_2) \subset [0, T] wynosi
p = \frac{t_2 -t_1}{T}
Zakładam, że każda chwila czasu jest równouprawniona (co nie jest realnym założeniem, ponieważ ludzie częściej dzwonią około godziny 17 niż około godziny 3 w nocy). To, że ktoś do mnie zadzwoni w przedziale czasowym [t_1, t_2] uważam za sukces, a to że nie zadzwoni - za porażkę (w życiu czasami jest odwrotnie). Tak więc
P(A)= p = \frac{t_2 -t_1}{T}
Natomiast
P(A')= q = 1-p = 1 - \frac{t_2 -t_1}{T}
Niech w przedziale [0, T] będzie n-rozmów telefonicznych, które następują losowo i całkowicie niezależnie od siebie. Jest to schemat Bernoulliego. Prawdopodobieństwo tego, że k z tych wszystkich n-rozmów będzie w przedziale (t_1, t_2) \subset [0, T] jest określone przez rozkład dwumianowy p_n(k).
3. Powyższy przykład, mający wiele mankamantów jak na idealny schemat Bernoulliego, można uogólnić ale przez to uczynić go bardziej abstrakcyjnym. Rozważmy przedział liczbowy [0, T]. Może to być przedział czasu. Z przedziału tego wybieram losowo jeden punkt, jedną liczbę. Ponieważ wszystkie liczby są "równo rozłożone", więc prawdopodobieństwo tego, że punkt ten jest w przedziale (t_1, t_2)\subset [0, T] wynosi
P(A)= p = \frac{t_2 -t_1}{T}
Jeżeli wylosowany punkt jest w tym przedziale, uważam to za sukces. Wybieram teraz losowo n punktów z przedzialu [0, T]. Prawdopodobieństwo tego, że k z tych wszystkich n-punktów będzie w przedziale (t_1, t_2)\subset [0, T] jest określone przez rozkład dwumianowy p_n(k).
4. Substancja promieniotwórcza emituje cząstki w losowych chwilach czasu t. W przedziale czasu [0, T] substancja emituje n cząstek. Moment emisji t jest zdarzeniem elementarnym \omega=t w przestrzeni probabilistycznej \Omega = [0, T]. Zmienną losową jest losowa chwila czasu emisji, \xi(\omega) = \xi(t) = t. Zdarzeniem A nazwę zdarzenie polegające na tym, że moment czasu t emisji cząstki bedzie w przedziale (t_1, t_2)\subset [0, T] . Niech prawdopodobieństwo takiego zdarzenia A wynosi
p = P\{ t_1 \le t \le t_2 \} = \int_{t_1}^{t_2} \alpha(s) ds
przy czym zakładamy, że \alpha(s) \ge 0 oraz \int_{0}^{T} \alpha(s) ds =1.
Funkcja \alpha(t) charakteryzuje własności emisyjne substancji promieniotwórczej. I znowu prawdopodobieństwo tego, że k z tych wszystkich n-cząstek zostanie wyemitowanych w przedziale czasu (t_1, t_2)\subset [0, T] jest określone przez rozkład dwumianowy p_n(k).
Zauważmy, że ten przykład zawiera w sobie dwa poprzednie przykłady. Aby to pokazać, wybierzmy postać funkcji \alpha(t)=1/T dla wszystkich t\in [0, T]. Wówczas
p = \int_{t_1}^{t_2} \alpha(s) ds = \int_{t_1}^{t_2} \frac{1}{T} ds = \frac{1}{T} \int_{t_1}^{t_2} ds = \frac{t_2 -t_1}{T}
W tym przypadku mówimy o jednostajnym rozkładzie chwil emisji (punktów, liczb). Substancje radioaktywne nie emitują jednostajnie cząstek: liczba emitowanych cząstek maleje wraz z upływem czasu. Gdybyśmy dostarczali bez przerwy żródła emisji, to można by przybliżać taki proces przez jednostajną emisję. Ale dla przykładu emisja cząstek w lampach elektronowych jest w przybliżeniu jednostajna.
5. O schemacie Bernoulliego można mówić we wszelkiego typu procesach urodzin. Proces emisji też może byc traktowany jako proces urodzin (rodzą się cząstki). Jeżeli coś się pojawia losowo i z czasem przybywa tego to jest to proces urodzin.
Niech w przedziale czasu [0, T] rodzi sie n dzieci. Pawdopodobieństwo tego, że jedno dziecko urodzi się w przedziale (t_1, t_2)\subset [0, T] wynosi
P(A)= p = \frac{t_2 -t_1}{T}
I znowu prawdopodobieństwo tego, że k z tych wszystkich n-dzieci urodzi sie w przedziale (t_1, t_2)\subset [0, T] jest określone przez rozkład dwumianowy p_n(k).
Uogólniony schemat Bernoulliego
Z powyższych przykładów widać, że rozkład dwumianowy pojawia się wszędzie tam, gdzie mamy powtarzające się zjawiska, niezależne od siebie. Zamiast rozbicia zbioru \Omega na dwa podzbiory i rozważać dwa zdarzenia: sukces-porażka, możemy rozbić zbiór \Omega na kilka podzbiorów i rozważać kilka zdarzeń. Wówczas otrzymujemy uogólniony schemat Bernoulliego. Dla przykładu rozpatrzymy przypadek trzech podzbiorów. Niech w jednym doświadczeniu ( tu w i-tym doświadczeniu)
\Omega_i = A_1 \cup A_2 \cup A_3 \; \; \; \; \; \; \; A_i \cap A_j = \empty \; \; (i\ne j), \; \; \; \; \; i, j =1, 2, 3
Niech
P(A_i) = p_i, \; \; \; \; \; \; \; \; p_1+p_2+p_3=1
Powtarzamy doświadczenie n-razy w sposób niezależny, to znaczy zakładamy, że wynik każdej próby nie zależy od wyników prób poprzednich i nie wpływa na wyniki prób następnych. Prawdopodobieństwo tego, że w n-próbach, zdarzenie A_1 pojawi sie k_1-razy, zdarzenie A_2 pojawi sie k_2-razy (a stąd zdarzenie A_3 pojawi sie k_3-razy) wynosi
przy czym
p_1 + p_2 + p_3 = 1, \; \; \; \; \; \; k_1 + k_2 + k_3 = n \;
Jest to uogólnienie formuły w Równaniu (2).
Widać teraz, jak łatwo można uogólnić te wzory na przypadek dowolnej liczby zdarzeń A_k tak aby
\Omega_i = A_1 \cup A_2 \dots \cup A_s \; \; \; \; \; \; \; A_i \cap A_j = \empty \; \;(i\ne j), \; \; \; \; \; i, j =1, 2, \dots , s
Powróćmy do wzoru (3). Zapis p_n(k_1, k_2, k_3 )\; jest symetryczny ale mylący, ponieważ k_3 oraz p_3 zależą od pozostałych wielkości. Dlatego przepiszemy relację (3) w postaci
= \frac{n!}{k_1! \, k_2! \, (n-k_1-k_2)!} \, p_1^{k_1} \cdot p_2^{k_2} \cdot [1-(p_1 + p_2)]^{n-k_1 - k_2} \;
Z tego wzoru wynika, że dwa zdarzenia: \{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}\} oraz \{A_2 \; \mbox{zachodzi} \; k_2 \;\mbox{razy}\} nie są zdarzeniami niezależnymi, to znaczy
\ne Pr\{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}\} \cdot Pr\{A_2 \; \mbox{zachodzi} \; k_2 \; \mbox{razy}\}
gdzie to ostatnie jest rozkładem dwumianowym zdefiniowanym w Równaniu (1). Do tego zagadnienia powrócimy jeszcze. Zobaczymy, że w pewnych granicznych przypadkach, zdarzenia powyższe mogą być niezależne, to znaczy zachodzi równość w (5).
Twierdzenie Poissona i rozkład Poissona
Trzy ostatnie schematy Bernoulliego są podobne. Przykład pierwszy jest inny. Gdzie tkwi ta odmienność. W trzech ostatnich schematach Bernoulliego prawdopodobieństwo p może być łatwo zmieniane poprzez zmianę końców przedziału (t_1, t_2) lub też przez zmianę T. W pierwszym schemacie prawdopodobieństwo p = (1/2) jest "sztywne", nie mozna go zmieniać (abstrahuje tu od zmiany p poprzez fałszowanie monet lub kostek do gry). Rozpatrzymy jeden z granicznych przypadków dla rozkładu dwumianowego.
Twierdzenie Poissona :
Niech
n \to \infty oraz p \to 0 w taki sposób, aby n \cdot p = \lambda = const.
Wówczas rozkład dwumianowy dąży do rozkładu
\lim_{n \to \infty\ p \to 0} p_n(k) = p(k) = \lim_{n \to \infty\ p \to 0} {n \choose k}p^k (1-p)^{n-k} = e^{-\lambda} \; \frac{\lambda ^k}{k!}
Dowód: Ponieważ n \cdot p = \lambda , stąd p = \lambda/n . Wstawimy to do rozkładu dwumianowego.
Zauważmy, że (reperkusja słynnej relacji Eulera definiującej liczbę e)
\lim_{n\to\infty} \left(1 - \frac{\lambda}{n}\right)^n = e^{-\lambda} \; \;
oraz
\lim_{n\to\infty} \left(1 - \frac{\lambda}{n}\right)^k = 1
Czynnik kombinatoryczny
{n \choose k} = \frac{n!}{k!(n-k)!}
= \frac{1\cdot 2 \cdot 3 \dots (n-k-1) (n-k) (n-k+1) (n-k+2)\dots (n-2) (n-1) n }{k! \; 1 \cdot 2 \cdot 3 \dots (n-k-1)(n-k)}
= \frac{1}{k!} (n-k+1) (n-k+2) \dots (n-2) (n-1) n
= \frac{n^k}{k!} \left( 1- \frac{k-1}{n}\right) \left( 1- \frac{k-2}{n}\right) \dots \left( 1- \frac{2}{n}\right) \left( 1- \frac{1}{n}\right)
Wszystkie wyrażenia w nawiasach dążą do 1 gdy n \to \infty. Wyrażenie w liczniku n^k uprości się z takim samym wyrażeniem w mianowniku Równania (6). W resultacie otrzymujemy tezę twierdzenia, czyli rozkład który nazywa się rozkładem Poissona o parametrze \lambda:
Pr\{\eta = k\} = p(k) = e^{-\lambda} \; \frac{\lambda ^k}{k!}
Zmienna losowa o rozkładzie dwumianowym w schemacie Bernoulliego przyjmowała wartości \eta = \{0, 1, 2, ..., n\}. Ponieważ teraz n \to \infty, więc zmienna losowa o rozkładzie Poissona przyjmuje wartości liczb całkowitych nieujemnych, to znaczy
\eta = \{0, 1, 2, 3, ...\} = \{k\}_{k=0}^{\infty}
W tym przejściu granicznym żądamy, aby prawdopodobieństwa p(A) pojedyńczego zdarzenia A dążyło do zera. Nie jest to możliwe dla rzutu monetą czy kostką. Ale jest to możliwe w pozostałych zaprezentowanych przykładach.
1. Procesy urodzin (rozmowy telefoniczne, punkty na odcinku)
Rozpatrywaliśmy przedział czasu (przedział liczbowy) [0, T] i prawdopodobieństwo
p = \frac{t_2 - t_1}{T}
Niech n \to \infty oraz T \to \infty w taki sposób aby \frac{n}{T} = \mu = const. . Oznacza to, że przedział [0, T] staje się półprostą [0, \infty), ilość punktów w przedziale nieskończonym jest nieskończona (n=\infty), ale gęstość punktów (ilość punktów w jednostkowym przedziale) jest stała, ta sama, niezależna od tego gdzie przedział jednostkowy jest położony. Można mówić o jednorodnym rozkładzie punktów na półprostej. W sensie matematycznym, oś liczbowa spełnia to założenie, ale na przykład dla rozmów telefonicznych tak nie jest. Są takie okresy czasowe (dnia, roku) kiedy częściej dzwonimy i do nas częściej dzwonią.
Wykorzystajmy definicję parametru \lambda = n\cdot p w rozkładzie Poissona:
\lambda = n \cdot p = n \; \frac{t_2 - t_1}{T} = \frac{n}{N} (t_2 - t_1) = \mu (t_2 - t_1)
W odniesieniu do tych (ważnych) przykładów otrzymujemy następującą interpretację rozkładu Poissona: prawdopodobieństwa tego, że k punktów jest w przedziale czasowym (t_1, t_2) określone jest przez wzór
Jeżeli gęstość punktów nie jest stała, wówczas należy dokonać zamiany
gdzie funkcja \mu(t) \ge 0 charakteryzuje (niejednorodny) rozkład punktów na osi liczbowej. W takim przypadku mówimy o zmiennej losowej o niejednorodnym rozkładzie Poissona. Przykładem może być losowy proces emisji cząstek ze źródła scharakteryzowanego przez funkcję \mu(t). Wówczas prawdopodobieństwa tego, że k cząstek zostanie wyemitowanych w przedziale czasowym (t_1, t_2) określone jest przez rozkład Poissona o parametrze \lambda danym przez powyższą całkę w Równaniu (8).