PIZL:Próby i schemat Bernoulliego

Z Skrypty dla studentów Ekonofizyki UPGOW

Kl.png
Ue.png




Spis treści

PRÓBY I SCHEMAT BERNOULLIEGO

Próby i schemat Bernoulliego

Jacob Bernoulli (1654–1705) [1]

Próbą Bernoulliego nazywamy dowolne doświadczenie losowe, w którym pytam tylko o dwa możliwe wyniki, będące zdarzeniami przeciwnymi. Jeden z wyników nazywam sukcesem, drugi - porażką. Przykładów takich doświadczeń mamy tysiące. Mogą one być bardziej lub mniej rzeczywiste, część może być bardziej lub mniej losowe. Używam tu nieprecyzyjnych określeń, ale czytelnik będzie wiedział o co mi chodzi po zapoznaniu się z poniższymi przykładami.


W rzucie monetą otrzymam orła czy reszkę; w rzucie kostką otrzymam parzystą lub nieparzystą liczbę oczek; dzwonię do przyjaciela: uzyskam połączenie lub nie; strzelam do tarczy: trafię w koło zawierające co najmniej 8 lub nie; pojadę do kina autobusem: odjedzie autobus planowo (plus minus 5 minut) lub nie; czy w Będzinie 15 marca pierwsze urodzone dziecko będzie chłopcem czy nie; itd.

Nie wszystkie te przykłady są idealną próbą Bernoulliego. Ale często idealizujemy, zakładając że tak jest. Metoda idealizacji jest nagminnie stosowana (o dziwo!) w naukach ścisłych. Dla przykładu, w mechanice klasycznej badamy ruch punktu materialnego. Takim punktem materialnym może być kulka metalowa, kamień, a czasami nawet lokomotywa. Więc my też będziemy zakładali, że nasze przykłady są idealnymi próbami Bernoulliego.


Teraz przeprowadzamy doświadczenie polegające na n-krotnym powtórzeniu ustalonej próby Bernoulliego, przy założeniu że wynik każdej próby nie zależy od wyników prób poprzednich i nie wpływa na wyniki prób następnych. Niezależność prób polega na tym, że dowolny wynik jednej próby nie wpływa na prawdopodobieństwo pojawienia się każdego z wyników w następnej próbie. Schematem n-prób Bernoulliego nazywamy ciąg n-niezależnych powtórzeń tej samej próby. Widać z powyższych przykładów prób Bernoulliego, że w każdej z n prób Bernoulliego przestrzeń probabilistyczną \(\Omega_i \; (i=1, 2, ... , n) \) rozbijamy na dwa podzbiory \(A_1\) i jego dopełnienie \(A_2\), to znaczy

\(\Omega_i = A_1 \cup A_2, \; \;\ \; A_1 \cap A_2 = \empty\)


Mamy dwa zdarzenia: zdarzenie \(A_1\) które nazwiemy umownie sukcesem i zdarzenie \(A_2\) które nazwiemy umownie porażką. Mamy pojedyńcze doświadczenie E i w wyniku tego doświadczenie możemy otrzymać albo sukces \(A_1\) albo porażkę \(A_2\). Niech prawdopodobieństwo sukcesu wynosi \(p=p_1\) i porażki \(q=p_2\), czyli

\(P(A_1) =p_1 =p, \; \; \; \; \;\;\;\;\; P(A_2) = p_2 = q, \; \;\;\;\;\; \; \; p_1+p_2=p+q=1\)


W pojedyńczej próbie definiujemy zmienną losową \(\xi_i\) w następujący sposób:

\(\xi_i(A_1) = 1\;\)

\(\xi_i(A_2) = 0\;\)

Zauważmy, że prawdopodobieństwo tego że \(\xi_i=1\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A_1\), czyli

\(Pr (\xi_i = 1) = P(A_1) = p_1\;\)

Podobnie, prawdopodobieństwo tego że \(\xi_i=0\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A_2\), czyli

\(Pr (\xi_i = 0) = P(A_2) = p_2 \;\)

Ponieważ zmienna losowa przyjmuje dwie wartości, więc jej dystrybuanta składa się z dwóch schodków:

\(F_{\xi_i}(x) = p_1 \theta(x-1) + p_2 \theta (x-0) = p \theta(x-1) + q\theta (x-0) \)

Pytamy, jakie jest prawdopodobieństwo tego, że w schemacie Bernoulliego o n próbach sukces otrzyma się dokładnie k razy? Albo pytamy równoważnie: jakie jest prawdopodobieństwo tego, że w \(n\) niezależnych doświadczeniach zdarzenie \(A_1\) pojawi się k razy? W schemacie n-prób Bernoulliego, ilość sukcesów jest nową zmienną losową, którą oznaczymy przez \(\eta\), Jakie wartości może przyjmować \(\eta\)? To jest to samo pytanie: ile razy mogę otrzymać orła w n rzutach monetą? Oczywiście orła mogę otrzymać 0 razy, albo 1 raz, może 2 razy albo 3 razy, 4 razy, ...., n razy. Więc matematycznie mogę to sformułować definiując zmienna losową \(\eta\) w następujący sposób:

\(\eta = \xi_1 + \xi_2 + \xi_3 + ... + \xi_n\;\)

Każda ze zmiennych losowych \(\xi_i = (1, 0)\), więc

\(\eta = \{0, 1, 2, ..., n\}\;\)

Pytanie o to jakie jest prawdopodobieństwo tego, że w schemacie Bernoulliego o n próbach otrzymamy k razy sukces jest pytaniem o to jest prawdopodobieństwo tego że zmienna losowa \(\eta = k \). Odpowiedź jest znana od wieków: prawdopodobieństwo to dane jest przez rozkład dwumianowy:


(1)

\(P\{\eta = k\} = Pr\{A_1 \; \mbox{zachodzi} \; k \; \mbox{razy}\} = p_n(k) = {n \choose k} \cdot p^k \cdot q^{n-k} = \frac{n!}{k! (n-k)!} \cdot p^k \cdot q^{n-k}\)


Warunek unormowania ma postać

\( \sum_{k=0}^n p_n(k) = \sum_{k=0}^n {n \choose k} \cdot p^k \cdot q^{n-k} =1 \)


Przepiszemy ten rozkład jeszcze raz wprowadzając oznaczenia:

\(k_1=k, \; \;\; \;k_2 = n- k = n -k_1 \;\)

Wówczas

(2)\(P\{\eta = k\} = p_n(k_1, k_2) = \frac{n!}{k_1! \; k_2!} \cdot p_1^{k_1} \cdot p_2^{k_2}\)

Zapis ten nie jest standardowy (i miejscami mylący) ale w wyrażeniu tym \(k_1\) oraz \(k_2\) występują w symetryczny sposób. Pamietajmy też, że

\(p_1+ p_2=1, \; \; \; k_1 +k_2=n \)

Taka symetryczna forma zapisu pozwala na łatwe uogólnienie schematu Bernoulliego. Poniżej przedstawimy uogólniony schemat Bernoulliego który ma zasadnicze znaczenie w problemie zależności lub niezależności zmiennych losowych oraz w teorii procesów stochastycznych.


Ważne przykłady prób i schematów Bernoulliego


1. Rzut monetą (możliwe wyniki: orzeł-reszka) lub kostką do gry (możliwe wyniki: parzysta ilość oczek-nieparzysta ilość oczek)

W tym przypadku

\( p = q = \frac{1}{2} \)

oraz prawdopodobieństwo tego, że w n rzutach wypadnie k razy orzeł (lub parzysta liczba oczek) wynosi

\(P\{\eta = k\} = p_n(k) = \frac{1}{2^n} {n \choose k} \)


2. Losowo ktoś do mnie zadzwoni w przedziale czasowym \([0, T]\). Sukcesem nazwę zdarzenie A polegające na tym, że ktoś do mnie zadzwoni w przedziale \((t_1, t_2) \subset [0, T] \). Prawdopodobieństwo tego, że osoba ta zadzwoni akurat w przedziale \((t_1, t_2) \subset [0, T] \) wynosi

\(p = \frac{t_2 -t_1}{T}\)

Zakładam, że każda chwila czasu jest równouprawniona (co nie jest realnym założeniem, ponieważ ludzie częściej dzwonią około godziny 17 niż około godziny 3 w nocy). To, że ktoś do mnie zadzwoni w przedziale czasowym \([t_1, t_2]\) uważam za sukces, a to że nie zadzwoni - za porażkę (w życiu czasami jest odwrotnie). Tak więc

\(P(A)= p = \frac{t_2 -t_1}{T}\)

Natomiast

\(P(A')= q = 1-p = 1 - \frac{t_2 -t_1}{T}\)

Niech w przedziale \([0, T]\) będzie n-rozmów telefonicznych, które następują losowo i całkowicie niezależnie od siebie. Jest to schemat Bernoulliego. Prawdopodobieństwo tego, że k z tych wszystkich n-rozmów będzie w przedziale \((t_1, t_2) \subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).


3. Powyższy przykład, mający wiele mankamantów jak na idealny schemat Bernoulliego, można uogólnić ale przez to uczynić go bardziej abstrakcyjnym. Rozważmy przedział liczbowy \([0, T]\). Może to być przedział czasu. Z przedziału tego wybieram losowo jeden punkt, jedną liczbę. Ponieważ wszystkie liczby są "równo rozłożone", więc prawdopodobieństwo tego, że punkt ten jest w przedziale \((t_1, t_2)\subset [0, T] \) wynosi

\(P(A)= p = \frac{t_2 -t_1}{T}\)

Jeżeli wylosowany punkt jest w tym przedziale, uważam to za sukces. Wybieram teraz losowo n punktów z przedzialu \([0, T]\). Prawdopodobieństwo tego, że k z tych wszystkich n-punktów będzie w przedziale \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).

4. Substancja promieniotwórcza emituje cząstki w losowych chwilach czasu t. W przedziale czasu \([0, T]\) substancja emituje n cząstek. Moment emisji t jest zdarzeniem elementarnym \(\omega=t\) w przestrzeni probabilistycznej \(\Omega = [0, T]\). Zmienną losową jest losowa chwila czasu emisji, \(\xi(\omega) = \xi(t) = t\). Zdarzeniem A nazwę zdarzenie polegające na tym, że moment czasu t emisji cząstki bedzie w przedziale \((t_1, t_2)\subset [0, T] \). Niech prawdopodobieństwo takiego zdarzenia A wynosi

\( p = P\{ t_1 \le t \le t_2 \} = \int_{t_1}^{t_2} \alpha(s) ds\)

przy czym zakładamy, że \(\alpha(s) \ge 0 \) oraz \(\int_{0}^{T} \alpha(s) ds =1\).

Funkcja \(\alpha(t)\) charakteryzuje własności emisyjne substancji promieniotwórczej. I znowu prawdopodobieństwo tego, że k z tych wszystkich n-cząstek zostanie wyemitowanych w przedziale czasu \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).

Zauważmy, że ten przykład zawiera w sobie dwa poprzednie przykłady. Aby to pokazać, wybierzmy postać funkcji \(\alpha(t)=1/T\) dla wszystkich \(t\in [0, T]\). Wówczas

\( p = \int_{t_1}^{t_2} \alpha(s) ds = \int_{t_1}^{t_2} \frac{1}{T} ds = \frac{1}{T} \int_{t_1}^{t_2} ds = \frac{t_2 -t_1}{T}\)

W tym przypadku mówimy o jednostajnym rozkładzie chwil emisji (punktów, liczb). Substancje radioaktywne nie emitują jednostajnie cząstek: liczba emitowanych cząstek maleje wraz z upływem czasu. Gdybyśmy dostarczali bez przerwy żródła emisji, to można by przybliżać taki proces przez jednostajną emisję. Ale dla przykładu emisja cząstek w lampach elektronowych jest w przybliżeniu jednostajna.


5. O schemacie Bernoulliego można mówić we wszelkiego typu procesach urodzin. Proces emisji też może byc traktowany jako proces urodzin (rodzą się cząstki). Jeżeli coś się pojawia losowo i z czasem przybywa tego to jest to proces urodzin.

Niech w przedziale czasu \( [0, T] \) rodzi sie n dzieci. Pawdopodobieństwo tego, że jedno dziecko urodzi się w przedziale \((t_1, t_2)\subset [0, T] \) wynosi

\(P(A)= p = \frac{t_2 -t_1}{T}\)


I znowu prawdopodobieństwo tego, że k z tych wszystkich n-dzieci urodzi sie w przedziale \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).

Uogólniony schemat Bernoulliego

Z powyższych przykładów widać, że rozkład dwumianowy pojawia się wszędzie tam, gdzie mamy powtarzające się zjawiska, niezależne od siebie. Zamiast rozbicia zbioru \(\Omega\) na dwa podzbiory i rozważać dwa zdarzenia: sukces-porażka, możemy rozbić zbiór \(\Omega\) na kilka podzbiorów i rozważać kilka zdarzeń. Wówczas otrzymujemy uogólniony schemat Bernoulliego. Dla przykładu rozpatrzymy przypadek trzech podzbiorów. Niech w jednym doświadczeniu ( tu w i-tym doświadczeniu)

\(\Omega_i = A_1 \cup A_2 \cup A_3 \; \; \; \; \; \; \; A_i \cap A_j = \empty \; \; (i\ne j), \; \; \; \; \; i, j =1, 2, 3\)

Niech

\(P(A_i) = p_i, \; \; \; \; \; \; \; \; p_1+p_2+p_3=1\)


Powtarzamy doświadczenie n-razy w sposób niezależny, to znaczy zakładamy, że wynik każdej próby nie zależy od wyników prób poprzednich i nie wpływa na wyniki prób następnych. Prawdopodobieństwo tego, że w n-próbach, zdarzenie \(A_1\) pojawi sie \(k_1\)-razy, zdarzenie \(A_2\) pojawi sie \(k_2\)-razy (a stąd zdarzenie \(A_3\) pojawi sie \(k_3\)-razy) wynosi

(3)\( p_n(k_1, k_2, k_3 ) = \frac{n!}{k_1! \, k_2! \, k_3!} \, p_1^{k_1} \cdot p_2^{k_2} \cdot p_3^{k_3} \; \)

przy czym

\(p_1 + p_2 + p_3 = 1, \; \; \; \; \; \; k_1 + k_2 + k_3 = n \; \)


Jest to uogólnienie formuły w Równaniu (2).

Widać teraz, jak łatwo można uogólnić te wzory na przypadek dowolnej liczby zdarzeń \(A_k\) tak aby


\(\Omega_i = A_1 \cup A_2 \dots \cup A_s \; \; \; \; \; \; \; A_i \cap A_j = \empty \; \;(i\ne j), \; \; \; \; \; i, j =1, 2, \dots , s\)


Powróćmy do wzoru (3). Zapis \( p_n(k_1, k_2, k_3 )\;\) jest symetryczny ale mylący, ponieważ \(k_3\) oraz \(p_3\) zależą od pozostałych wielkości. Dlatego przepiszemy relację (3) w postaci

(4)\( Pr\{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}, A_2 \; \mbox{zachodzi} \; k_2 \; \mbox{razy}\} \)

\[ = \frac{n!}{k_1! \, k_2! \, (n-k_1-k_2)!} \, p_1^{k_1} \cdot p_2^{k_2} \cdot [1-(p_1 + p_2)]^{n-k_1 - k_2} \; \]

Z tego wzoru wynika, że dwa zdarzenia: \(\{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}\} \) oraz \(\{A_2 \; \mbox{zachodzi} \; k_2 \;\mbox{razy}\} \) nie są zdarzeniami niezależnymi, to znaczy

(5)\( Pr\{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}, A_2 \; \mbox{zachodzi} \; k_2 \; \mbox{razy}\} \)

\[ \ne Pr\{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}\} \cdot Pr\{A_2 \; \mbox{zachodzi} \; k_2 \; \mbox{razy}\} \]


gdzie to ostatnie jest rozkładem dwumianowym zdefiniowanym w Równaniu (1). Do tego zagadnienia powrócimy jeszcze. Zobaczymy, że w pewnych granicznych przypadkach, zdarzenia powyższe mogą być niezależne, to znaczy zachodzi równość w (5).



Twierdzenie Poissona i rozkład Poissona

Trzy ostatnie schematy Bernoulliego są podobne. Przykład pierwszy jest inny. Gdzie tkwi ta odmienność. W trzech ostatnich schematach Bernoulliego prawdopodobieństwo p może być łatwo zmieniane poprzez zmianę końców przedziału \((t_1, t_2)\) lub też przez zmianę T. W pierwszym schemacie prawdopodobieństwo p = (1/2) jest "sztywne", nie mozna go zmieniać (abstrahuje tu od zmiany p poprzez fałszowanie monet lub kostek do gry). Rozpatrzymy jeden z granicznych przypadków dla rozkładu dwumianowego.

Twierdzenie Poissona :

Niech

\(n \to \infty\) oraz \(p \to 0\) w taki sposób, aby \(n \cdot p = \lambda = const. \)

Wówczas rozkład dwumianowy dąży do rozkładu

\(\lim_{n \to \infty\ p \to 0} p_n(k) = p(k) = \lim_{n \to \infty\ p \to 0} {n \choose k}p^k (1-p)^{n-k} = e^{-\lambda} \; \frac{\lambda ^k}{k!}\)


Dowód: Ponieważ \(n \cdot p = \lambda \), stąd \(p = \lambda/n \). Wstawimy to do rozkładu dwumianowego.

(6)\(p^k q^{n-k} = p^k (1-p)^{n-k} = \left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k} = \left(\frac{\lambda}{n}\right)^k \frac{\left(1-\frac{\lambda}{n}\right)^{n}}{\left(1-\frac{\lambda}{n}\right)^{k}}\)

Zauważmy, że (reperkusja słynnej relacji Eulera definiującej liczbę e)

\(\lim_{n\to\infty} \left(1 - \frac{\lambda}{n}\right)^n = e^{-\lambda} \; \; \)

oraz

\(\lim_{n\to\infty} \left(1 - \frac{\lambda}{n}\right)^k = 1 \)


Czynnik kombinatoryczny

\({n \choose k} = \frac{n!}{k!(n-k)!} \)


\( = \frac{1\cdot 2 \cdot 3 \dots (n-k-1) (n-k) (n-k+1) (n-k+2)\dots (n-2) (n-1) n }{k! \; 1 \cdot 2 \cdot 3 \dots (n-k-1)(n-k)}\)

\( = \frac{1}{k!} (n-k+1) (n-k+2) \dots (n-2) (n-1) n \)

\( = \frac{n^k}{k!} \left( 1- \frac{k-1}{n}\right) \left( 1- \frac{k-2}{n}\right) \dots \left( 1- \frac{2}{n}\right) \left( 1- \frac{1}{n}\right) \)


Wszystkie wyrażenia w nawiasach dążą do 1 gdy \(n \to \infty\). Wyrażenie w liczniku \(n^k\) uprości się z takim samym wyrażeniem w mianowniku Równania (6). W resultacie otrzymujemy tezę twierdzenia, czyli rozkład który nazywa się rozkładem Poissona o parametrze \(\lambda\):


                                   \( Pr\{\eta = k\} = p(k) =  e^{-\lambda} \; \frac{\lambda ^k}{k!}\)

Zmienna losowa o rozkładzie dwumianowym w schemacie Bernoulliego przyjmowała wartości \(\eta = \{0, 1, 2, ..., n\}\). Ponieważ teraz \(n \to \infty\), więc zmienna losowa o rozkładzie Poissona przyjmuje wartości liczb całkowitych nieujemnych, to znaczy

\(\eta = \{0, 1, 2, 3, ...\} = \{k\}_{k=0}^{\infty} \)


W tym przejściu granicznym żądamy, aby prawdopodobieństwa p(A) pojedyńczego zdarzenia A dążyło do zera. Nie jest to możliwe dla rzutu monetą czy kostką. Ale jest to możliwe w pozostałych zaprezentowanych przykładach.

1. Procesy urodzin (rozmowy telefoniczne, punkty na odcinku)

Rozpatrywaliśmy przedział czasu (przedział liczbowy) \([0, T]\) i prawdopodobieństwo

\(p = \frac{t_2 - t_1}{T}\)

Niech \(n \to \infty\) oraz \(T \to \infty\) w taki sposób aby \(\frac{n}{T} = \mu = const. \). Oznacza to, że przedział \([0, T]\) staje się półprostą \([0, \infty)\), ilość punktów w przedziale nieskończonym jest nieskończona (\(n=\infty\)), ale gęstość punktów (ilość punktów w jednostkowym przedziale) jest stała, ta sama, niezależna od tego gdzie przedział jednostkowy jest położony. Można mówić o jednorodnym rozkładzie punktów na półprostej. W sensie matematycznym, oś liczbowa spełnia to założenie, ale na przykład dla rozmów telefonicznych tak nie jest. Są takie okresy czasowe (dnia, roku) kiedy częściej dzwonimy i do nas częściej dzwonią.

Wykorzystajmy definicję parametru \(\lambda = n\cdot p\) w rozkładzie Poissona:

\(\lambda = n \cdot p = n \; \frac{t_2 - t_1}{T} = \frac{n}{N} (t_2 - t_1) = \mu (t_2 - t_1)\)


W odniesieniu do tych (ważnych) przykładów otrzymujemy następującą interpretację rozkładu Poissona: prawdopodobieństwa tego, że k punktów jest w przedziale czasowym \((t_1, t_2)\) określone jest przez wzór

(7)\( Pr\{k \; \mbox{punktow w przedziale} \; (t_1, t_2)\} = e^{-\mu (t_2 - t_1)} \; \frac{[\mu (t_2 - t_1)]^k}{k!}\)

Jeżeli gęstość punktów nie jest stała, wówczas należy dokonać zamiany

(8)\(\lambda = \mu (t_2 - t_1) \to \lambda = \int_{t_1}^{t_2} \mu(s) ds\)

gdzie funkcja \(\mu(t) \ge 0\) charakteryzuje (niejednorodny) rozkład punktów na osi liczbowej. W takim przypadku mówimy o zmiennej losowej o niejednorodnym rozkładzie Poissona. Przykładem może być losowy proces emisji cząstek ze źródła scharakteryzowanego przez funkcję \(\mu(t)\). Wówczas prawdopodobieństwa tego, że k cząstek zostanie wyemitowanych w przedziale czasowym \((t_1, t_2)\) określone jest przez rozkład Poissona o parametrze \(\lambda\) danym przez powyższą całkę w Równaniu (8).