Z Skrypty dla studentów Ekonofizyki UPGOW
Spis treści |
PRÓBY I SCHEMAT BERNOULLIEGO
Próby i schemat Bernoulliego
Próbą Bernoulliego nazywamy dowolne doświadczenie losowe, w którym pytam tylko o dwa możliwe wyniki, będące zdarzeniami przeciwnymi. Jeden z wyników nazywam sukcesem, drugi - porażką. Przykładów takich doświadczeń mamy tysiące. Mogą one być bardziej lub mniej rzeczywiste, część może być bardziej lub mniej losowe. Używam tu nieprecyzyjnych określeń, ale czytelnik będzie wiedział o co mi chodzi po zapoznaniu się z poniższymi przykładami.
W rzucie monetą otrzymam orła czy reszkę; w rzucie kostką otrzymam parzystą lub nieparzystą liczbę oczek; dzwonię do przyjaciela: uzyskam połączenie lub nie; strzelam do tarczy: trafię w koło zawierające co najmniej 8 lub nie; pojadę do kina autobusem: odjedzie autobus planowo (plus minus 5 minut) lub nie; czy w Będzinie 15 marca pierwsze urodzone dziecko będzie chłopcem czy nie; itd.
Nie wszystkie te przykłady są idealną próbą Bernoulliego. Ale często idealizujemy, zakładając że tak jest. Metoda idealizacji jest nagminnie stosowana (o dziwo!) w naukach ścisłych. Dla przykładu, w mechanice klasycznej badamy ruch punktu materialnego. Takim punktem materialnym może być kulka metalowa, kamień, a czasami nawet lokomotywa. Więc my też będziemy zakładali, że nasze przykłady są idealnymi próbami Bernoulliego.
Teraz przeprowadzamy doświadczenie polegające na n-krotnym powtórzeniu ustalonej próby Bernoulliego, przy założeniu że wynik każdej próby nie zależy od wyników prób poprzednich i nie wpływa na wyniki prób następnych. Niezależność prób polega na tym, że dowolny wynik jednej próby nie wpływa na prawdopodobieństwo pojawienia się każdego z wyników w następnej próbie. Schematem n-prób Bernoulliego nazywamy ciąg n-niezależnych powtórzeń tej samej próby. Widać z powyższych przykładów prób Bernoulliego, że w każdej z n prób Bernoulliego przestrzeń probabilistyczną \(\Omega_i \; (i=1, 2, ... , n) \) rozbijamy na dwa podzbiory \(A_1\) i jego dopełnienie \(A_2\), to znaczy
\(\Omega_i = A_1 \cup A_2, \; \;\ \; A_1 \cap A_2 = \empty\)
Mamy dwa zdarzenia: zdarzenie \(A_1\) które nazwiemy umownie sukcesem i zdarzenie \(A_2\) które nazwiemy umownie porażką. Mamy pojedyńcze doświadczenie E i w wyniku tego doświadczenie możemy otrzymać albo sukces \(A_1\) albo porażkę \(A_2\). Niech prawdopodobieństwo sukcesu wynosi \(p=p_1\) i porażki \(q=p_2\), czyli
\(P(A_1) =p_1 =p, \; \; \; \; \;\;\;\;\; P(A_2) = p_2 = q, \; \;\;\;\;\; \; \; p_1+p_2=p+q=1\)
W pojedyńczej próbie definiujemy zmienną losową \(\xi_i\) w następujący sposób:
\(\xi_i(A_1) = 1\;\)
\(\xi_i(A_2) = 0\;\)
Zauważmy, że prawdopodobieństwo tego że \(\xi_i=1\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A_1\), czyli
\(Pr (\xi_i = 1) = P(A_1) = p_1\;\)
Podobnie, prawdopodobieństwo tego że \(\xi_i=0\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A_2\), czyli
\(Pr (\xi_i = 0) = P(A_2) = p_2 \;\)
Ponieważ zmienna losowa przyjmuje dwie wartości, więc jej dystrybuanta składa się z dwóch schodków:
\(F_{\xi_i}(x) = p_1 \theta(x-1) + p_2 \theta (x-0) = p \theta(x-1) + q\theta (x-0) \)
Pytamy, jakie jest prawdopodobieństwo tego, że w schemacie Bernoulliego o n próbach sukces otrzyma się dokładnie k razy? Albo pytamy równoważnie: jakie jest prawdopodobieństwo tego, że w \(n\) niezależnych doświadczeniach zdarzenie \(A_1\) pojawi się k razy? W schemacie n-prób Bernoulliego, ilość sukcesów jest nową zmienną losową, którą oznaczymy przez \(\eta\), Jakie wartości może przyjmować \(\eta\)? To jest to samo pytanie: ile razy mogę otrzymać orła w n rzutach monetą? Oczywiście orła mogę otrzymać 0 razy, albo 1 raz, może 2 razy albo 3 razy, 4 razy, ...., n razy. Więc matematycznie mogę to sformułować definiując zmienna losową \(\eta\) w następujący sposób:
\(\eta = \xi_1 + \xi_2 + \xi_3 + ... + \xi_n\;\)
Każda ze zmiennych losowych \(\xi_i = (1, 0)\), więc
\(\eta = \{0, 1, 2, ..., n\}\;\)
Pytanie o to jakie jest prawdopodobieństwo tego, że w schemacie Bernoulliego o n próbach otrzymamy k razy sukces jest pytaniem o to jest prawdopodobieństwo tego że zmienna losowa \(\eta = k \). Odpowiedź jest znana od wieków: prawdopodobieństwo to dane jest przez rozkład dwumianowy:
\(P\{\eta = k\} = Pr\{A_1 \; \mbox{zachodzi} \; k \; \mbox{razy}\} = p_n(k) = {n \choose k} \cdot p^k \cdot q^{n-k} = \frac{n!}{k! (n-k)!} \cdot p^k \cdot q^{n-k}\)
Warunek unormowania ma postać
\( \sum_{k=0}^n p_n(k) = \sum_{k=0}^n {n \choose k} \cdot p^k \cdot q^{n-k} =1 \)
Przepiszemy ten rozkład jeszcze raz wprowadzając oznaczenia:
\(k_1=k, \; \;\; \;k_2 = n- k = n -k_1 \;\)
Wówczas
Zapis ten nie jest standardowy (i miejscami mylący) ale w wyrażeniu tym \(k_1\) oraz \(k_2\) występują w symetryczny sposób. Pamietajmy też, że
\(p_1+ p_2=1, \; \; \; k_1 +k_2=n \)
Taka symetryczna forma zapisu pozwala na łatwe uogólnienie schematu Bernoulliego. Poniżej przedstawimy uogólniony schemat Bernoulliego który ma zasadnicze znaczenie w problemie zależności lub niezależności zmiennych losowych oraz w teorii procesów stochastycznych.
Ważne przykłady prób i schematów Bernoulliego
1. Rzut monetą (możliwe wyniki: orzeł-reszka) lub kostką do gry (możliwe wyniki: parzysta ilość oczek-nieparzysta ilość oczek)
W tym przypadku
\( p = q = \frac{1}{2} \)
oraz prawdopodobieństwo tego, że w n rzutach wypadnie k razy orzeł (lub parzysta liczba oczek) wynosi
\(P\{\eta = k\} = p_n(k) = \frac{1}{2^n} {n \choose k} \)
2. Losowo ktoś do mnie zadzwoni w przedziale czasowym \([0, T]\). Sukcesem nazwę zdarzenie A polegające na tym, że ktoś do mnie zadzwoni w przedziale \((t_1, t_2) \subset [0, T] \). Prawdopodobieństwo tego, że osoba ta zadzwoni akurat w przedziale \((t_1, t_2) \subset [0, T] \) wynosi
\(p = \frac{t_2 -t_1}{T}\)
Zakładam, że każda chwila czasu jest równouprawniona (co nie jest realnym założeniem, ponieważ ludzie częściej dzwonią około godziny 17 niż około godziny 3 w nocy). To, że ktoś do mnie zadzwoni w przedziale czasowym \([t_1, t_2]\) uważam za sukces, a to że nie zadzwoni - za porażkę (w życiu czasami jest odwrotnie). Tak więc
\(P(A)= p = \frac{t_2 -t_1}{T}\)
Natomiast
\(P(A')= q = 1-p = 1 - \frac{t_2 -t_1}{T}\)
Niech w przedziale \([0, T]\) będzie n-rozmów telefonicznych, które następują losowo i całkowicie niezależnie od siebie. Jest to schemat Bernoulliego. Prawdopodobieństwo tego, że k z tych wszystkich n-rozmów będzie w przedziale \((t_1, t_2) \subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).
3. Powyższy przykład, mający wiele mankamantów jak na idealny schemat Bernoulliego, można uogólnić ale przez to uczynić go bardziej abstrakcyjnym. Rozważmy przedział liczbowy \([0, T]\). Może to być przedział czasu. Z przedziału tego wybieram losowo jeden punkt, jedną liczbę. Ponieważ wszystkie liczby są "równo rozłożone", więc prawdopodobieństwo tego, że punkt ten jest w przedziale \((t_1, t_2)\subset [0, T] \) wynosi
\(P(A)= p = \frac{t_2 -t_1}{T}\)
Jeżeli wylosowany punkt jest w tym przedziale, uważam to za sukces. Wybieram teraz losowo n punktów z przedzialu \([0, T]\). Prawdopodobieństwo tego, że k z tych wszystkich n-punktów będzie w przedziale \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).
4. Substancja promieniotwórcza emituje cząstki w losowych chwilach czasu t. W przedziale czasu \([0, T]\) substancja emituje n cząstek. Moment emisji t jest zdarzeniem elementarnym \(\omega=t\) w przestrzeni probabilistycznej \(\Omega = [0, T]\). Zmienną losową jest losowa chwila czasu emisji, \(\xi(\omega) = \xi(t) = t\). Zdarzeniem A nazwę zdarzenie polegające na tym, że moment czasu t emisji cząstki bedzie w przedziale \((t_1, t_2)\subset [0, T] \). Niech prawdopodobieństwo takiego zdarzenia A wynosi
\( p = P\{ t_1 \le t \le t_2 \} = \int_{t_1}^{t_2} \alpha(s) ds\)
przy czym zakładamy, że \(\alpha(s) \ge 0 \) oraz \(\int_{0}^{T} \alpha(s) ds =1\).
Funkcja \(\alpha(t)\) charakteryzuje własności emisyjne substancji promieniotwórczej. I znowu prawdopodobieństwo tego, że k z tych wszystkich n-cząstek zostanie wyemitowanych w przedziale czasu \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).
Zauważmy, że ten przykład zawiera w sobie dwa poprzednie przykłady. Aby to pokazać, wybierzmy postać funkcji \(\alpha(t)=1/T\) dla wszystkich \(t\in [0, T]\). Wówczas
\( p = \int_{t_1}^{t_2} \alpha(s) ds = \int_{t_1}^{t_2} \frac{1}{T} ds = \frac{1}{T} \int_{t_1}^{t_2} ds = \frac{t_2 -t_1}{T}\)
W tym przypadku mówimy o jednostajnym rozkładzie chwil emisji (punktów, liczb). Substancje radioaktywne nie emitują jednostajnie cząstek: liczba emitowanych cząstek maleje wraz z upływem czasu. Gdybyśmy dostarczali bez przerwy żródła emisji, to można by przybliżać taki proces przez jednostajną emisję. Ale dla przykładu emisja cząstek w lampach elektronowych jest w przybliżeniu jednostajna.
5. O schemacie Bernoulliego można mówić we wszelkiego typu procesach urodzin. Proces emisji też może byc traktowany jako proces urodzin (rodzą się cząstki). Jeżeli coś się pojawia losowo i z czasem przybywa tego to jest to proces urodzin.
Niech w przedziale czasu \( [0, T] \) rodzi sie n dzieci. Pawdopodobieństwo tego, że jedno dziecko urodzi się w przedziale \((t_1, t_2)\subset [0, T] \) wynosi
\(P(A)= p = \frac{t_2 -t_1}{T}\)
I znowu prawdopodobieństwo tego, że k z tych wszystkich n-dzieci urodzi sie w przedziale \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).
Uogólniony schemat Bernoulliego
Z powyższych przykładów widać, że rozkład dwumianowy pojawia się wszędzie tam, gdzie mamy powtarzające się zjawiska, niezależne od siebie. Zamiast rozbicia zbioru \(\Omega\) na dwa podzbiory i rozważać dwa zdarzenia: sukces-porażka, możemy rozbić zbiór \(\Omega\) na kilka podzbiorów i rozważać kilka zdarzeń. Wówczas otrzymujemy uogólniony schemat Bernoulliego. Dla przykładu rozpatrzymy przypadek trzech podzbiorów. Niech w jednym doświadczeniu ( tu w i-tym doświadczeniu)
\(\Omega_i = A_1 \cup A_2 \cup A_3 \; \; \; \; \; \; \; A_i \cap A_j = \empty \; \; (i\ne j), \; \; \; \; \; i, j =1, 2, 3\)
Niech
\(P(A_i) = p_i, \; \; \; \; \; \; \; \; p_1+p_2+p_3=1\)
Powtarzamy doświadczenie n-razy w sposób niezależny, to znaczy zakładamy, że wynik każdej próby nie zależy od wyników prób poprzednich i nie wpływa na wyniki prób następnych. Prawdopodobieństwo tego, że w n-próbach, zdarzenie \(A_1\) pojawi sie \(k_1\)-razy, zdarzenie \(A_2\) pojawi sie \(k_2\)-razy (a stąd zdarzenie \(A_3\) pojawi sie \(k_3\)-razy) wynosi
przy czym
\(p_1 + p_2 + p_3 = 1, \; \; \; \; \; \; k_1 + k_2 + k_3 = n \; \)
Jest to uogólnienie formuły w Równaniu (2).
Widać teraz, jak łatwo można uogólnić te wzory na przypadek dowolnej liczby zdarzeń \(A_k\) tak aby
\(\Omega_i = A_1 \cup A_2 \dots \cup A_s \; \; \; \; \; \; \; A_i \cap A_j = \empty \; \;(i\ne j), \; \; \; \; \; i, j =1, 2, \dots , s\)
Powróćmy do wzoru (3). Zapis \( p_n(k_1, k_2, k_3 )\;\) jest symetryczny ale mylący, ponieważ \(k_3\) oraz \(p_3\) zależą od pozostałych wielkości. Dlatego przepiszemy relację (3) w postaci
\[ = \frac{n!}{k_1! \, k_2! \, (n-k_1-k_2)!} \, p_1^{k_1} \cdot p_2^{k_2} \cdot [1-(p_1 + p_2)]^{n-k_1 - k_2} \; \]
Z tego wzoru wynika, że dwa zdarzenia: \(\{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}\} \) oraz \(\{A_2 \; \mbox{zachodzi} \; k_2 \;\mbox{razy}\} \) nie są zdarzeniami niezależnymi, to znaczy
\[ \ne Pr\{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}\} \cdot Pr\{A_2 \; \mbox{zachodzi} \; k_2 \; \mbox{razy}\} \]
gdzie to ostatnie jest rozkładem dwumianowym zdefiniowanym w Równaniu (1). Do tego zagadnienia powrócimy jeszcze. Zobaczymy, że w pewnych granicznych przypadkach, zdarzenia powyższe mogą być niezależne, to znaczy zachodzi równość w (5).
Twierdzenie Poissona i rozkład Poissona
Trzy ostatnie schematy Bernoulliego są podobne. Przykład pierwszy jest inny. Gdzie tkwi ta odmienność. W trzech ostatnich schematach Bernoulliego prawdopodobieństwo p może być łatwo zmieniane poprzez zmianę końców przedziału \((t_1, t_2)\) lub też przez zmianę T. W pierwszym schemacie prawdopodobieństwo p = (1/2) jest "sztywne", nie mozna go zmieniać (abstrahuje tu od zmiany p poprzez fałszowanie monet lub kostek do gry). Rozpatrzymy jeden z granicznych przypadków dla rozkładu dwumianowego.
Twierdzenie Poissona :
Niech
\(n \to \infty\) oraz \(p \to 0\) w taki sposób, aby \(n \cdot p = \lambda = const. \)
Wówczas rozkład dwumianowy dąży do rozkładu
\(\lim_{n \to \infty\ p \to 0} p_n(k) = p(k) = \lim_{n \to \infty\ p \to 0} {n \choose k}p^k (1-p)^{n-k} = e^{-\lambda} \; \frac{\lambda ^k}{k!}\)
Dowód: Ponieważ \(n \cdot p = \lambda \), stąd \(p = \lambda/n \). Wstawimy to do rozkładu dwumianowego.
Zauważmy, że (reperkusja słynnej relacji Eulera definiującej liczbę e)
\(\lim_{n\to\infty} \left(1 - \frac{\lambda}{n}\right)^n = e^{-\lambda} \; \; \)
oraz
\(\lim_{n\to\infty} \left(1 - \frac{\lambda}{n}\right)^k = 1 \)
Czynnik kombinatoryczny
\({n \choose k} = \frac{n!}{k!(n-k)!} \)
\( = \frac{1\cdot 2 \cdot 3 \dots (n-k-1) (n-k) (n-k+1) (n-k+2)\dots (n-2) (n-1) n }{k! \; 1 \cdot 2 \cdot 3 \dots (n-k-1)(n-k)}\)
\( = \frac{1}{k!} (n-k+1) (n-k+2) \dots (n-2) (n-1) n \)
\( = \frac{n^k}{k!} \left( 1- \frac{k-1}{n}\right) \left( 1- \frac{k-2}{n}\right) \dots \left( 1- \frac{2}{n}\right) \left( 1- \frac{1}{n}\right) \)
Wszystkie wyrażenia w nawiasach dążą do 1 gdy \(n \to \infty\). Wyrażenie w liczniku \(n^k\) uprości się z takim samym wyrażeniem w mianowniku Równania (6). W resultacie otrzymujemy tezę twierdzenia, czyli rozkład który nazywa się rozkładem Poissona o parametrze \(\lambda\):
\( Pr\{\eta = k\} = p(k) = e^{-\lambda} \; \frac{\lambda ^k}{k!}\)
Zmienna losowa o rozkładzie dwumianowym w schemacie Bernoulliego przyjmowała wartości \(\eta = \{0, 1, 2, ..., n\}\). Ponieważ teraz \(n \to \infty\), więc zmienna losowa o rozkładzie Poissona przyjmuje wartości liczb całkowitych nieujemnych, to znaczy
\(\eta = \{0, 1, 2, 3, ...\} = \{k\}_{k=0}^{\infty} \)
W tym przejściu granicznym żądamy, aby prawdopodobieństwa p(A) pojedyńczego zdarzenia A dążyło do zera. Nie jest to możliwe dla rzutu monetą czy kostką. Ale jest to możliwe w pozostałych zaprezentowanych przykładach.
1. Procesy urodzin (rozmowy telefoniczne, punkty na odcinku)
Rozpatrywaliśmy przedział czasu (przedział liczbowy) \([0, T]\) i prawdopodobieństwo
\(p = \frac{t_2 - t_1}{T}\)
Niech \(n \to \infty\) oraz \(T \to \infty\) w taki sposób aby \(\frac{n}{T} = \mu = const. \). Oznacza to, że przedział \([0, T]\) staje się półprostą \([0, \infty)\), ilość punktów w przedziale nieskończonym jest nieskończona (\(n=\infty\)), ale gęstość punktów (ilość punktów w jednostkowym przedziale) jest stała, ta sama, niezależna od tego gdzie przedział jednostkowy jest położony. Można mówić o jednorodnym rozkładzie punktów na półprostej. W sensie matematycznym, oś liczbowa spełnia to założenie, ale na przykład dla rozmów telefonicznych tak nie jest. Są takie okresy czasowe (dnia, roku) kiedy częściej dzwonimy i do nas częściej dzwonią.
Wykorzystajmy definicję parametru \(\lambda = n\cdot p\) w rozkładzie Poissona:
\(\lambda = n \cdot p = n \; \frac{t_2 - t_1}{T} = \frac{n}{N} (t_2 - t_1) = \mu (t_2 - t_1)\)
W odniesieniu do tych (ważnych) przykładów otrzymujemy następującą interpretację rozkładu Poissona: prawdopodobieństwa tego, że k punktów jest w przedziale czasowym \((t_1, t_2)\) określone jest przez wzór
Jeżeli gęstość punktów nie jest stała, wówczas należy dokonać zamiany
gdzie funkcja \(\mu(t) \ge 0\) charakteryzuje (niejednorodny) rozkład punktów na osi liczbowej. W takim przypadku mówimy o zmiennej losowej o niejednorodnym rozkładzie Poissona. Przykładem może być losowy proces emisji cząstek ze źródła scharakteryzowanego przez funkcję \(\mu(t)\). Wówczas prawdopodobieństwa tego, że k cząstek zostanie wyemitowanych w przedziale czasowym \((t_1, t_2)\) określone jest przez rozkład Poissona o parametrze \(\lambda\) danym przez powyższą całkę w Równaniu (8).