Procesy i Zjawiska Losowe

Z Skrypty dla studentów Ekonofizyki UPGOW

(Różnice między wersjami)
(Procesy Poissona)
(Proces urodzin)
Linia 1980: Linia 1980:
Aby otrzymać jedną realizację procesu urodzin w przedziale czasu <math>[0, T]</math>, należy losowo  wybrać w tym przedziale  
Aby otrzymać jedną realizację procesu urodzin w przedziale czasu <math>[0, T]</math>, należy losowo  wybrać w tym przedziale  
-
punkty <math>t_i</math> które są momentami urodzenia.  
+
punkty <math>t_i</math> które są momentami urodzenia.
===Proces urodzin i śmierci===
===Proces urodzin i śmierci===

Wersja z 14:23, 24 lut 2010

Jerzy Łuczka

PROCESY I ZJAWISKA LOSOWE

Skrypt dla studentów ekonofizyki


Spis treści

Wstęp

Tak się pisze fajne wzory, jakie się pokażą na wykładzie z pedagogiki niekonwencjonalnej (np. jak ci przypier... to się gnoju uspokoisz i dasz tatusiowi spokó jak tatuś czyta gazetę)

\(\iiint{}U_{H}=\frac{IB}{hnq}\not=R_{H}\cdot\frac{IB}{h^{e\cos}} h ^\sin _7 \not=\sum_{n=\infty}^k{A\over{({b\over z}+q)}W}v\Omega \pi\)

Wielki sukces fizyki, a ogólniej mówiąc nauk przyrodniczych, polega na tym, że jej odkrycia przyczyniły się do rozwoju cywilizacyjnego naszej planety. Sukces ten jest związany z tym, że podstawowe równania fizyki opisujące dynamikę układów cechuje własność determinizmu. Co to oznacza? Ogólnie mówiąc oznacza to możliwość przewidywania i to jednoznacznego przewidywania. Jest to konsekwencją twierdzeń matematycznych o jednoznaczności rozwiązań równań różniczkowych. Na tym opiera się determinizm mechaniki klasycznej i elektrodynamiki. Determinizm mechaniki kwantowej należy nieco inaczej interpretować. Niezależnie od interpretacji, zarówno przewidywania mechaniki kwantowej jak i kwantowej teorii cząstek elementarnych znakomicie potwierdzone są przez liczne doświadczenia. My możemy przewidzieć tor cząstki, określić precyzyjnie ruch rakiety, generować fale elektromagnetyczne o określonej długości, wyznaczyć różnice między poziomami energetycznymi w atomie wodoru, zbudować tranzystor, układ scalony, komputer, telefon komórkowy, itd, itp. Jeżeli podstawowe prawa fizyki opisują procesy deterministyczne to dlaczego pojawia się losowość wielu zjawisk obserwowanych każdego dnia? Skąd jest ta losowść i ten brak przewidywalności różnych procesów zachodzących na naszej planecie, w naszym kraju, w naszej rodzinie, w naszym organizmie? Odpowiedź nie jest prosta. Ogólnie mówiąc źródłem losowości jest złożoność. Ale złożoność nie jest wystarczająca. Wszelkie formułowane odpowiedzi nie są i nigdy nie będą pełne. Ja przytoczę dwa podstawowe źródła losowości:

A. Własność chaotyczności

B. Makroskopowość układów (kolosalna liczba stopni swobody)

Własność chaotyczności uzmysławia nam złudność pojmowania determinizmu w mechanice klasycznej. Układy makroskopowe składają się z niesłychanie wielkiej liczby składników (cząstek, molekuł, makromolekuł. Ich opis metodami mechaniki (klasycznej lun kwantowej) jest nieefektywny. Co mam na myśli? Czy jestem w stanie analizowac układ równań różniczkowych zwyczajnych drugiego rzędu dla 1023 cząstek. Czy jestem w stanie podać \(2\times 10^{23}\) położeń początkowych i prędkości początkowych wszystkich cząstek? Czy jestem w stanie śledzić trajektorie wszystkich cząstek? Odpowiedź jest oczywista: NIE! Dlatego powstała inna efektywna metoda oparta na teorii nazywanej fizyką statystyczną. W tej teorii nie podajemy wszystkich położeń i prędkości cząstek, ale wielkość którą nazywamy rozkładem prawdopodobieństwa położeń i prędkości. Teoria ta jest efektywna. Ale nie tkwi w niej determinizm mechaniki Newtona. Tkwi w niej losowość.

uwagi

Uwaga 1:

W książce tej używam systematycznie i konsekwentnie używam oznaczeń: \(\xi, \; \xi_1, \; \xi_k, \; \eta, ...\) dla zmiennych losowych oraz \(\xi(t), \; \xi_1(t), \; \xi_k(t), \; \eta(t), ...\) dla procesów stochastycznych. Unikam stosowanego przez fizyków zapisu \(x(t), \; y(t), ...\) czy zapisu \(X_t, \; Y_t, ...\) stosowanego przez matematyków dla oznaczenia procesów stochastycznych. Głównym powodem jest poziom opanowania i zrozumienia pojęcia funkcji. Moja wieloletnia praktyka pokazuje, że to co dla matematyków i lepiej wykształconych matematycznie fizyków jest oczywiste, dla studentów - niekoniecznie. Wieloletni brak matury z matematyki zrobił swoje. Spustoszenie jest ogromne. Oto "krajobraz po bitwie": dla przeciętnego studenta \(f(x) =2 x^2\) jest inną funkcją niż \(h(a) = 2 a^2\). Dlatego wolę konsekwentnie pisać

\(<\xi(t)> = \int_{-\infty}^{\infty} x \; p(x, t) \;dx\)

Często zapis

\(<x(t)> = \int_{-\infty}^{\infty} x \; p(x, t) \;dx\)

prowadzi wśród studentów do nieporozumień.

Uwaga 2:


(1)\(\frac{1}{2} = 0.5\)


(2)\(\frac{1}{2} =2\)


(3)\(\frac{1}{2} =0.632\)


Równanie (1) jest prawdziwe, a rys 1

Równanie (3) jest z duzym przyblizeniem nieprawdziwe.


Zbiory

PODSTAWOWE POJĘCIA NA TEMAT ZBIORÓW

Często będziemy posługiwali się pojęciem zbiorów i będziemy dokonywać różnych operacji na zbiorach. Dlatego też przypomnimy podstawowe pojęcia i wprowadzimy oznaczenia, którymi będziemy stosować w dalszej części książki.

Oznaczmy przez \(\Omega\) zbiór, który nazwiemy przestrzenią. Niech \(A, B, ...\) będa podzbiorami zbioru \(\Omega\).

Sumą zbiorów nazywamy zbiór złożony ze wszystkich elementów należących do któregokolwiek z sumowanych zbiorów. Suma zbiorów \(A \) i \( B \) jest oznaczana przez \(A\cup B\). Tak więc:

\(A\cup B=\{x:x\in A\vee x\in B\}\)

Zapis ten odczytujemy następująco: jest to zbiór tych elementów x które należą do zbioru \(A\) lub należą do zbioru \(B\).

Iloczyn (lub część wspólna, przekrój, przecięcie) zbiorów \( A \) i \( B \) to zbiór, do którego należą te elementy zbioru \( A \), które należą również do \( B \). Część wspólna zbiorów \( A \) i \( B \) jest oznaczana przez \(A\cap B\). Tak więc:

\(A\cap B=\{x:x\in A\wedge x\in B\}\).

Zapis ten odczytujemy następująco: jest to zbiór tych elementów x które należą do zbioru \(A\) i jednocześnie należą do zbioru \(B\).


Różnica zbiorów A\B - to zbiór złożony z tych elementów zbioru A, które nie należą do B:

\(A \setminus B = \{ x : x\in A \and x \notin B\}\).

Zapis ten odczytujemy następująco: jest to zbiór tych elementów x które należą do zbioru \(A\) lecz nie należą do zbioru \(B\).


Dopełnieniem \(A'\) zbioru \(A\) (w przestrzeni \(\Omega\)) nazywa się różnica zbiorów

\(A'=\Omega \setminus A = \{x \in \Omega\colon x \notin A\}\),

Zapis ten odczytujemy następująco: jest to zbiór tych elementów x z przestrzeni \(\Omega\), które nie należą do zbioru \(A\).


Zbiór pusty jest to taki "dziwny" zbiór, który nie zawiera żadnych elementów. Oznaczany jest symbolem \(\empty\) lub \(\varnothing\).

Zbiory rozłączne – dwa zbiory \(A\) i \(B \) są rozłączne jeżeli ich część wspólna jest zbiorem pustym:

\(A\cap B=\empty\).

Inaczej mówiąc, zbiory te nie mają wspólnych elementów.

Na przykład, zbiory {1 ,2, 5, 8, 9} i {4, 6} są rozłączne, natomiast zbiory {2, 3, 5, 7, 8} i {2, 5, 6} – nie.

Rodzinę zbiorów| \((A_i)_{i\in I}\) nazywa się rodziną zbiorów parami rozłącznych, jeśli każde dwa różne zbiory tej rodziny są rozłączne: \[i\ne j \implies A_i\cap A_j = \emptyset\]

Elementy teorii prawdopodobieństa

Zdarzenia, procesy i zjawiska losowe (przypadkowe, stochastyczne) opisywane są przez teorię prawdopodobieństwa. W odróżnieniu od procesów deterministycznych, nie można jednoznacznie przewidywać wyników zdarzeń przypadkowych i ewolucji procesów losowych. Losowość opisujemy za pomocą prawdopodobieństwa zajścia określonych zdarzeń.


Przestrzeń probabilistyczna

Teoria prawdopodobieństwa bazuje, jak każda teoria matematyczna, na odpowiedniej przestrzeni. Matematycy analizowali i nadal analizują dziesiątki przestrzeni, jak na przykład przestrzenie liczbowe, wektorowe, topologiczne, unormowane, unitarne, metryczne, Banacha, Frecheta, Hausdorffa, Sobolewa, itd, itp.

Dla przykładu, dla teorii funkcji bardzo użyteczna jest przestrzeń metryczna. Przestrzeń metryczna jest takim zbiorem \( X \), w którym można zdefiniować odległość \( d(x, y)\, \) między dwoma jej elementami \( x \in X \) i \( y \in X \). Odleglość jest funkcją dwóch zmiennych \( x \) i \( y \) oraz posiada kilka charakterystycznych cech, np. odległość nie może byc ujemna. Jeżeli zdefiniujemy odległość w zbiorze \( X \), wówczas możemy w tym zbiorze określić zbieżność ciągów i wprowadzić pojęcie ciągłości funkcji. Możemy też zdefiniować pojęcie pochodnej funkcji i całki oznaczonej. Możemy dokonywać wielu innych operacji na funkcjach. Widać z tego przykładu, że pojęcie metryki jest bardzo użyteczne i zdefiniowanie metryki w jakimś zbiorze niesłychanie wzbogaca ten zbiór. Matematycy lubią definiować przestrzeń metryczna jako parę \( (X, d)\,\), tzn. jest to zbiór X wraz z określoną w niej odległościa, czyli metryką \( d=d(x, y) \,\).

Podobnie jest w teorii prawdopodobieństwa. Taka użyteczną przestrzenią jest przestrzenią probabilistyczną. Jest to zbiór, w którym określone są dodatkowe elementy, analogiczne do metryki. Dokładniej mówiąc przestrzeń ta nie jest parą jak w przypadku przestrzeni metrycznej, ale trójką, tzn. składa sie na nią trzy elementy

 \( (\Omega,  {\mathcal F},  P)\;\) 


Rozszyfrujmy poszczególne elementy tej trójki.

\(\Omega\): przestrzeń zdarzeń elementarnych 

Pierwszy element trójki \((\Omega, \mathcal F, P)\), tzn. zbiór \(\Omega\) może składać się ze skończonej lub nieskończonej ilości elementów i nazywa się zbiorem zdarzeń elementarnych. Element \(\omega \in \Omega\) nazywa się zdarzeniem elementarnym lub inaczej mówiąc możliwym wynikiem doświadczenia.

Przykłady zbioru zdarzeń elementarnych \(\Omega\)

1. Doświadczenie polega na jednokrotnym rzucie monetą. Są dwa możliwe wyniki: wypadnie orzeł lub reszka. Wynikowi "orzeł" możemy przyporządkować oznaczenie \(\omega_1\), natomiast wynikowi "reszka" - \(\omega_2\). Tak więc zbiór zdarzeń elementarnych składa się z 2 elementów:

\[\Omega =\{\omega_1, \omega_2\}\;\].

2. Doświadczenie polega na dwukrotnym rzucie monetą. Teraz możliwe są cztery wyniki: \(\omega_1 =\)(orzeł, orzeł), \(\omega_2 =\)(orzeł, reszka), \(\omega_3 =\)(reszka, orzeł) i \(\omega_1 =\)(reszka, reszka). Np. \(\omega_3 =\) =(reszka, orzeł) oznacza, że w pierwszym rzucie wypadła reszka, natomiast w drugim rzucie - orzeł.Tak więc zbiór zdarzeń elementarnych składa się z 4 elementów: \(\Omega =\{\omega_1,\omega_2,\omega_3, \omega_4\}\).

3. Doświadczenie polega na jednokrotnym rzucie kostką do gry w popularnego "chińczyka". Wynikiem może być jedno oczko, albo dwa oczka, albo trzy oczka, albo cztery oczka, albo pięć oczek, albo sześć oczek. Przyporządkowując liczbie oczek oznaczenie \(\omega_n \) dla \( n=1, 2, 3, 4, 5, 6 \) otrzymamy 6-elementowy zbiór zdarzeń elementarnych

\[\Omega =\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5, \omega_6 \}\;\].

4. Doświadczenie znowu polega na jednokrotnym rzucie kostką do gry w "chińczyka". Tym razem interesuje mnie tylko to, czy wypadnie parzysta liczba (to znaczy 2 lub 4 lub 6) czy nieparzysta liczba (to znaczy 1 lub 3 lub 5). Przyporządkowując nieparzystej liczbie oczek oznaczenie \(\omega_1 \), natomiast parzystej liczbie oczek oznaczenie \(\omega_2 \) otrzymamy 2-elementowy zbiór zdarzeń elementarnych

\[\Omega =\{\omega_1, \omega_2 \}\;\].


5. Podzielę rok na doby. Będę analizował momenty czasu \(t_1, t_2, t_3, ...\), gdy ktoś do mnie dzwoni w ciągu doby. Moment czasu \(t_i\) jest losowy oraz \(t_i \in [0, 24]\). W tym przykładzie moment czasu \(t_i=\omega_i\) jest zdarzeniem elementarnym, a

\[\Omega = [0, 24]\;\]

jest przestrzenią zdarzeń elementarnych. Przestrzeń ta jest umownym interwałem czasowym, w którym chcę badać statystykę rozmów telefonicznych.

6. Substancje radioaktywne emitują od czasu do czasu cząstki. Moment emisji cząstki jest losowy i może zajść w przedziale czasu \([t_0, \infty)\), gdzie \(t_0\) jest początkiem detekcji emitowanych cząstek. Dla wygody przyjmujemy \(t_0=0\). Wówczas zbiór zdarzeń elementarnych to nieskończony przedział

\[\Omega = [0, \infty)\;\]

7. Cząstka (nazywana cząstką Browna) porusza się w wodzie i zderza się z cząsteczkami wody. Ruch takiej cząstki Browna wydaje się być losowy i bardzo nieregularny. Dla fizyka modelującego zachowanie się cząstki Browna, przestrzenią zdarzeń elementarnych może być zbiór wszystkich możliwych położeń czastki, czyli przestrzeń trójwymiarowa \(\Omega = RxRxR=R^3\). Gdybyśmy ograniczyli się do możliwych ruchów tylko w jednym wymiarze (czyli na prostej rzeczywistej) to przestrzenią zdarzeń elementaranych byłby zbiór liczb rzeczywistych

\[\Omega = R = (-\infty, \infty)\;\]

Trzy ostatnie przykłady sa odmienne od czterech pierwszych przykładów. Zbiór \(\Omega = [0, 24]\), zbiór \(\Omega = [0, \infty)\) i zbiór \(\Omega = (-\infty, \infty)\) składają się z nieskończenie wielu elementów, tzn. z nieskończenie wielu liczb rzeczywistych z ograniczonego przedziału \( [0, 24]\), nieograniczonego przedziału \( [0, \infty)\) lub nieograniczonego przedziału \( (-\infty, \infty)\). Zbiory te nieskończenie wielu liczb są pod wieloma względami inne niż zbiór nieskończenie wielu liczb naturalnych czy całkowitych. Mówimy, że są one mocy continuum. Natomiast zbiór nieskończenie wielu liczb naturalnych jest przeliczalny. Gdyby przestrzeń zdarzeń elementarnych była równoliczna ze zbiorem liczb naturalnych, to też zawierałaby nieskończenie wiele elementów. Jednakże obie przestrzenie probabilistyczne są radykalnie różne. O tym będzie mowa w dalszej części wykładów.



\({\mathcal F}\): rodzina podzbiorów zbioru \(\Omega\)

Drugi element trójki \((\Omega, \mathcal F, P)\), tzn. zbiór \({\mathcal F}\) jest tzw. \(\sigma\)-algebrą podzbiorów zbioru \(\Omega\).

Innymi słowy, elementami zbioru \({\mathcal F}\) są podzbiory zbioru zdarzeń elementarnych \(\Omega\), ale niekoniecznie wszystkie możliwe podzbiory. Rodzina tych podzbiorów powinna spełniać określone własności. A mianowicie:

  1. zbiór pusty należy do rodziny \(\mathcal{F}\),
  2. dopełnienie \(A'\) zbioru \(A\) należącego do \(\mathcal{F}\) też należy do \(\mathcal{F}\),
  3. suma przeliczalnie wielu zbiorów z \(\mathcal{F}\) też należy do \(\mathcal{F}\).

Elementy zbioru \({\mathcal F}\) nazywają się zdarzeniami.

Często w literaturze \(\sigma\)-algebra zbiorów nazywa się też \(\sigma\)-ciałem zbiorów.

Dlaczego żądamy, aby spełnione były powyższe (na pierwszy rzut oka nieco dziwaczne) własności? Otóż dlatego, że chcemy przeprowadzać różne operacje na elementach rodziny \({\mathcal F}\), czyli na zdarzeniach i chcemy w wyniku takich operacji otrzymywać także zdarzenia. Dlatego też w ogólnym przypadku nie koniecznie należy rozpatrywać wszystkie podzbiory zbioru \(\Omega \), ale tylko takie podzbiory, które są zdarzeniami. Aby uzmysłowic sobie, o co mi chodzi, posłużę się bardziej elementarnym i odmiennym przykładem.

Rozważmy zbiór liczb naturalnych i niech \(N\) i \(M\) będą dwiema liczbami naturalnymi. Suma \(N+M\) oraz iloczyn \(N M\) też są liczbami naturalnymi. Jeżeli chcemy dokonywac tylko te dwie operacje na liczbach naturalnych, to w wyniku operacji dodawania i iloczynu dostaniemy zawsze liczby naturalne. Jeżeli natomiast chcemy dokonywać operacji odejmowania dwóch liczb naturalnych, to nie zawsze otrzymamy liczbę naturalną, ponieważ np. 10-25=-15 nie jest liczbą naturalną. Jeżeli zamiast liczb naturalnych, rozważać będziemy zbiór liczb całkowitych, to w wyniku wszystkich trzech operacji otrzymamy zawsze liczbę całkowita. Z kolei gdybyśmy chcieli rozpatrywać jeszcze operację dzielenia dwóch liczb z pewnego zbioru i otrzymywać zawsze liczby z tego zbioru, to musimy rozważać zbiór liczb wymiernych. Widać z tego, że w zależności od tego, jakie operacje będą wykonywane na elementach pewnego zbioru, musimy też odpowiednio dobrać ten zbiór. Innymi słowy, ten zbiór powinien posiadać odpowiednią strukturę, odpowiednie własności.

Przykłady \(\sigma\)-algebry \(\mathcal F\)

Powyzej podaliśmy pięć przykładów zbioru zdarzeń elementarnych \(\Omega\). Dla niektórych z tych przykładów podamy możliwe zbiory \(\mathcal F\).


1. Dla pierwszego przykładu, przy jednokrotnym rzucie monetą zbiorem zdarzeń elementarnych jest zbiór

\[\Omega =\{\omega_1, \omega_2\}\;\]

Ponieważ \(\mathcal F\) jest rodziną podzbiorów zbioru \(\Omega\), więc otrzymamy następujące możliwe podzbiory zbioru \(\Omega\):

zbiór pusty \(\emptyset\) (nie zawiera on żadnego elementu),
zbiory jednoelementowe \(\{\omega_1\}\) oraz \(\{\omega_2\}\),
zbiór dwuelementowy \(\{\omega_1, \omega_2\}\) czyli zbiór \(\Omega\)

Zauważmy, że \(\mathcal F\) zawiera 4 podzbiory, czyli \(2^2\). To samo otrzymujemy dla przykładu 4.


2. Dla trzeciego przykładu, przy jednokrotnym rzucie kostką zbiorem zdarzeń elementarnych jest zbiór

\[\Omega =\{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\;\]

Możliwymi podzbiorami tego zbioru są następujące podzbiory

(a) zbiór pusty \(\emptyset\)

(b) wszystkie możliwe zbiory jedno-elementowe

\(\{\omega_1\}, \{\omega_2\}, \{\omega_3\}, \{\omega_4\}, \{\omega_5\}, \{\omega_6\}\)

(c) wszystkie możliwe zbiory dwu-elementowe

\(\{\omega_1, \omega_2\}\), \(\{\omega_1, \omega_3\}\), \(\{\omega_1, \omega_4\}\), \(\{\omega_1, \omega_5\}\), \(\{\omega_1, \omega_6\}\)
\(\{\omega_2, \omega_3\}\), \(\{\omega_2, \omega_4\}\), \(\{\omega_2, \omega_5\}\), \(\{\omega_2, \omega_6\}\)
\(....................................................\)
\(\{\omega_5, \omega_6\}\)

(d) wszystkie możliwe zbiory trój-elementowe

\(\{\omega_1, \omega_2, \omega_3\}\), \(\{\omega_1, \omega_2, \omega_4\}\), \(\{\omega_1, \omega_2, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_6\}\)
\(\{\omega_1, \omega_3, \omega_4\}\), \(\{\omega_1, \omega_3, \omega_5\}\), \(\{\omega_1, \omega_3, \omega_6\}\)
\(....................................................\)
\(\{\omega_4, \omega_5, \omega_6\}\)


(e) wszystkie możliwe zbiory cztero-elementowe

\(\{\omega_1, \omega_2, \omega_3, \omega_4\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_6\}\),
\(....................................................\)
\(\{\omega_3, \omega_4, \omega_5, \omega_6\}\)


(f) wszystkie możliwe zbiory pięcio-elementowe

\(\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_6\}\),
\(....................................................\)
\(\{\omega_2, \omega_3, \omega_4, \omega_5, \omega_6\}\)


(g) tylko jeden zbiór sześcio-elementowy

\(\{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\)

czyli zbiór zdarzeń elementarnych \(\Omega\)

Zbiór \(\mathcal F= \mathcal F_1\) zawiera \(2^6=64\) elementy. Jest to maksymalna liczba możliwych podzbiorów zbioru składającego się z 6 elementów. Jest to dobrze znany wynik. W ogolności dla zbioru \(\Omega\) składajacego się z \(N\) elementów, rodzina \(\mathcal F\) liczy \(2^N\) elementów. Liczba podzbiorów k-elementowych w zbiore N-elementowym to liczba kombinacji

\(N \choose k\). Stąd mamy

\({6 \choose 0} =1\) zbiorów jzero-elementowych,

\({6 \choose 1} =6\) zbiorów jedno-elementowych,

\({6 \choose 2} =15\) zbiorów dwuelementowych,

\({6 \choose 3} =20\) zbiorów trzy-elementowych,

\({6 \choose 4} =15\) zbiorów cztero-elementowych,

\({6 \choose 5} =6\) zbiorów pięci-elementowych,

\({6 \choose 6} =1\) zbiorów sześcio-elementowych.


Suma tych liczb wynosi 64. Wynik ten można otrzymac z wyrażenia dla dwumianu Newtona

\((a+b)^N = \sum_{k=0}^N {N\choose k} a^k b^{N-k}\)

Przyjmując w tym wzorze a=b=1 otrzymamy

\(2^N = \sum_{k=0}^N {N\choose k}\)


Ten przykład jest interesujacy jeszcze z jednego powodu. Pokazuje on, że w zależności od tego, jakie pytania stawiamy, rodzina \(\mathcal F\) może być inaczej skonstruowana. Łatwo sprawdzić, że podzbiory

\(\emptyset\), \(\Omega\;\), \(\{\omega_1, \omega_3, \omega_5\}\;\), \(\{\omega_2, \omega_4, \omega_6\}\;\)

także spełniają własności \(\sigma\)-algebry. Więc jest to też możliwy zbiór \(\mathcal F= \mathcal F_2\).


Mamy obecnie dwie \(\sigma\)-algebry, oznaczone przez \(\mathcal F_1\) oraz \(\mathcal F_2\). Pierwsza \(\sigma\)-algebra zawiera 64 podzbiory, druga- tylko 4. Pamiętajmy, że elementy \(\sigma\)-algebry nazywają się zdarzeniami. Cóż to jest za zdarzenie

\(A_1= \{\omega_5, \omega_6\}\)

Jest to zdarzenie, polegające na tym, że przy jednokrotnym rzucie kostką wypadnie albo 5 albo 6.

Zdarzenie

\(A_2=\{\omega_1, \omega_3, \omega_5\}\)

oznacza, że wypadnie nieparzysta liczba oczek.

Zdarzenie

\(A_0=\emptyset \)

nazywa sie zdarzeniem niemożliwym.

Zdarzenie

\(A=\Omega= \{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\)

polega na tym, że przy jednokrotnym rzucie kostką wypadnie jedno z sześciu oczek. To jest pewne. Dlatego nazywa się ono zdarzeniem pewnym. Jest oczywiste, że gdy w jednokrotnym rzucie otrzymamy np. \(\omega 3\) czyli trójkę, to nie otrzymamy jedynki, czy piątki. To oznacza, że

\[i\ne j \implies \omega_i\cap \omega_j = \emptyset\]

Zdarzenia takie nazywamy zdarzeniami wzajemnie wykluczającymi się. W ogólności, jeżeli zachodzi relacja

\[i\ne j \implies A_i\cap A_j = \emptyset\]

to takie zdarzenia \(\{A_i\}\) nazywamy zdarzeniami wzajemnie wykluczającymi się.

Zauważmy, że rodzina podzbiorów \(\mathcal F_2\) jest znacznie uboższa niż rodzina \(\mathcal F_1\). Wybierając rodzinę podzbiorów \(\mathcal F_2\), pytamy tylko o parzystą lub nieparzystą liczbę oczek. Możemy konstruować jeszcze inne rodziny \(\mathcal F\).

Z powyższych przykładów wynika, że jeżeli przestrzeń zdarzeń elementranych składa się z n-elementów, to rodzina \(\mathcal F\) może składać się ze wszystkich podzbiorów zbioru \(\Omega\). A liczba wszystkich możliwych podzbiorów zbioru n-elementowego wynosi \(2^n\). Jest to maksymalna \(\sigma\)-algebra.

3. Jeżeli przestrzeń zdarzeń elementrnych jest zbiorem liczb rzeczywistych, tzn. \(\Omega = R\) lub dowolym jego podzbiorem, to \(\sigma\)-algebra generowana jest przez wszystkie zbiory otwarte \((a, b)\), gdzie \(a\) i \(b\) są dowolnymi liczbami rzeczywistymi. Tak \(\sigma\)-algebra składa się ze zbiorów otwartych \((a, b)\), zbiorów domknietych \([a, b]\), zbiorów półotwartych \([a, b)\) lub \((a, b]\), półprostych \((a, \infty)\), \((-\infty, b)\), \([a, \infty)\), \((-\infty, b]\), dowolnych przeliczalnych sum i iloczynów. Rodzina ta zawiera także różnice zbiorów i punkty. Wszystkie powyższe podzbiory tworzą najważniejszą \(\sigma\)-algebrę i nazywamy ją \(\sigma\)-algebrą zbiorów Borela.


\(P\): miara probabilistyczna 

Ostatni element trójki \((\Omega, \mathcal F, P)\), tzn. P jest funkcją i nazywa się miarą probabilistyczną lub po prostu prawdopodobieństwem. Argumentem tej funkcji są zdarzenia \(A\in \mathcal F\). Funkcja \(P\) musi spełniać określone warunki. Można je sformułować następująco:

Niech \({\mathcal F}\) będzie \(\sigma\)-algebrą podzbiorów zbioru \(\Omega\) oraz niech \(P:{\mathcal F}\longrightarrow {\mathbb R^+}\) będzie funkcją o następujących własnościach:

  1. \(P(A) \ge 0 \) dla dowolnego zdarzenia \(A \in {\mathcal F}\)
  2. \( P(\Omega) < \infty \)
  3. \(P\) jest σ-addytywna (lub inaczej mówiąc przeliczalnie addytywna), tzn.
\(P\left(\bigcup_{n = 0}^{\infty}~A_n\right) = \sum_{n = 0}^{\infty}~P(A_n)\) dla wszystkich parami rozłącznych zbiorów \(A_0,A_1,A_2,\ldots\in {\mathcal F}\).

Ponieważ elementy \(\sigma\)-algebry \(\mathcal F\) są zdarzeniami, to kazdemu zdarzeniu \(A \in \mathcal F\) przyporządkowujemy nieujemną liczbę \(P(A)\). To liczba ma interpretację prawdopodobieństwa zajścia zdarzenia \(A\). Z własności 2, że \(P(\Omega)\) jest liczbą skończoną i z przyczyn historycznych oraz tradycji zakładamy, że \(P(\Omega)=1\). Inaczej mówiąc, zawsze możemy unormować miarę probabilistyczną do jedności. Przypomina to przyjęcie określonych jednostek w fizyce. Np.masa jednego kilograma jest kwestią umowną. Unormowanie funkcji \(P\) do jedności oznacza, że

\[ 0 \le P(A)\le 1 \]

Addytywność oznacza, że

\(P(A\cup B)=P(A)+ P(B)\) dla wszystkich wzajemnie wykluczających się zdarzeń \(A,B\in {\mathcal F}\), to znaczy takich, że ich część wspólna

(iloczyn) jest zbiorem pustym: \(A \cap B =\emptyset \).


WAŻNE RELACJE

\(P(A)\in[0,1]\), \(P(\emptyset) = 0\), \(P(\Omega) = 1\,\)

\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)

\(P(A')=1-P(A)\,\)

PRAWDOPODOBIEŃSTWO WARUNKOWE

\(P(A \mid B) = \frac{P(A \cap B)}{P(B)} \)

Jest to prawdopodobieństwo zajścia zdarzenia A pod warunkiem że zachodzi zdarzenie B. Definicja ta ma sens pod warunkiem, że \(P(B) \ne 0\)


Przykłady miar probabilistycznych


1. Przy jednokrotny rzucie idealną monetą prawdopodobieństwo otrzymania orła (reszki) wynosi \(1/2\), czyli

\(P(\omega_1)=P(\omega_2) = \frac{1}{2}\)

Można też założyć ogólniejszy przypadek gdy \(P(\omega_1) =p_1\) oraz \(P(\omega_2) = p_2\). Wówczas musi zachodzić równość \(p_1+p_2=1\).

2. Przy jednokrotny rzucie idealną kostką prawdopodobieństwo otrzymania np. 2 oczek wynosi \(1/6\), czyli

\(P(\omega_k) = \frac{1}{6} \) dla \( k=1, 2, 3, 4, 5, 6 \).

Można też założyć ogólniejszy przypadek gdy \(P(\omega_k) =p_k \in [0, 1]\). Wówczas musi zachodzić równość \(p_1+p_2+p_3+p_4+p_5+p_6=1\).

3. Niech przestrzeń zdarzeń elementarnych składa sie z nieskończonej ale przeliczalnej liczby elementów

\(\Omega=\{\omega_1, \omega_2, \omega_3, ...\}\)

Jeżeli \(P(\omega_k)=p_k \in [0, 1]\) oraz \(\sum_{k=1}^{\infty}p_k = 1\), to otrzymamy dobrze określone prawdopodobieństwa zajścia dowolnych zdarzeń w tej przestrzeni probabilistycznej.

4. Jeżeli przestrzenią zdarzeń elementarnych jest zbiór liczb rzeczywistych lub jego podzbiór, wówczas zdarzeniami są przedziały. Niech, niezależnie od interpretacji, zdarzeniem jest przedział \(A=(2, 8)\). Czy można określić prawdopodobieństwo zajścia zdarzenia \(A\), czyli ile wynosi

\(P(A=(2, 8))\)

Tak abstrakcyjnie sformułowane pytanie ma nieskończenie wiele możliwych realizacji. Podamy jedną z przykładowych odpowiedzi. Niech \(\Omega =R\). Niech \(f(x)\) będzie funkcja określoną na zbiorze \(\Omega\) o następujących własnościach

(i) \(f(x) \ge 0\) for all \(x\in \Omega \)

(ii) \(\int_{-\infty}^{\infty} f(x) dx =1\)

Wówczas

\(P(A=(2, 8)) = \int_{2}^{8} f(x) dx\)

Zamiast zbioru \(\Omega = R\), mozna rozważać półprostą lub odcinek. Wówczas we wzorze (ii) przedziałem całkowania jest półprosta lub odcinek.

Zmienna losowa

Przestrzeń probabilistyczna jest zbiorem, więc tak jak na każdym zbiorze tak i na przestrzeni probabilistycznej możemy definiować odwzorowania. Niech \(f\) będzie dowolną funkcją określoną na zbiorze \(X\) o wartościach w zbiorze \(Y\). Pamiętamy, że element zbioru \(X\) nazywany jest argumentem funkcji (zmienną niezależną), natomiast zbiór \(Y\) jest zbiorem wartości funkcji. Zmienna losowa jest też funkcją, tyle że na przestrzeni probabilistycznej. Tutaj odpowiednikiem zbioru \(X\) jest zbiór zdarzeń elementarnych \(\Omega\), a zmienną niezależną jest zdarzenie elementarne \(\omega\). Jednak nie wszystkie funkcje na zbiorze \(\Omega\) nazywają się zmiennymi losowymi. Problem jest nieco podobny do tego, że nie wszystkie funkcje są funkcjami ciągłymi. Z "praktyki" studenci wiedzą, że funkcje ciągłe są "przyjemniejsze" (na przykład granica lewostronna jest równa granicy prawostronnej i jest to liczba skończona). Analogiem funkcji ciągłych są zmienne losowe.


Precyzyjna definicja matematyczna jest następujaca:

Niech \((\Omega, F, P)\) będzie przestrzenia probabilistyczną oraz \((X, {\mathcal B})\) -- przestrzenią fazową, tzn. zbiorem \(X\) wraz z \(\sigma\)-algebrą \({\mathcal B}\) zbioru \(X\). Zwykle \(X=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}\) są zbiory Borela.


Zmienną losową (rzeczywistą) na przestrzeni probabilistycznej \((\Omega, \mathcal F, P)\) nazywamy dowolną rzeczywistą funkcję mierzalną \(\xi \colon \Omega \to R\), tzn. funkcję \(\xi \) spełniającą warunek

\(\xi^{-1}(B)\in \mathcal{F}\) dla każdego zbioru borelowskiego \(B\subset {\mathcal B}\).

Innymi słowy, przeciwobraz zbioru Borela jest zdarzeniem w przestrzeni probabilistycznej \(\Omega\). Definicja ta przypomina topologiczna definicję odwzorowania ciągłego: mówiąc w wielkim skrócie, odwzorowanie \(G\) nazywa się ciągłym gdy przeciwobraz każdego zbioru otwartego jest zbiorem otwartym. Jest to mniej znana definicja odwzorowania ciągłego, ale jest ona równoważna tradycyjnej definicji ciągowej.

Zwykle zmienne losowe zapisuje się za pomocą liter greckich \(\xi, \eta, \), odmiennie niż zapisuje się funkcje. Oznaczenie \(\xi(\omega)\) odpowiada tradycyjnemu zapisowi dla funkcji \(f(x)\).

Dodatkowo narzucamy warunek

\(P(\{\omega: \xi(\omega)=\pm \infty\})=0\)

Innymi słowy, zbiór wszystkich zdarzeń elementarnych, dla których zmienna losowa przyjmuje nieskończone wartosci, jest miary zero. Np. gdy analzujemy ruch cząstki Browna, prawdopodobieństwo tego, że czastka ta jest w nieskończoosci wynosi zero. Jest to naturalne założenie dla wszystkich realnych zjawisk. Jeżeli jako zbiór Borela w przestrzeni fazowej \(X\) przyjmiemy \(B=(-\infty, x]\), gdzie \(x\) jest dowolna liczbą rzeczywistą, to warunek mierzalności można napisać w bardziej przejrzystej formie:

\(\{\omega: \xi(\omega) \le x\} \in\mathcal F \;\)

czyli zbiór takich \(\omega \; \) jest elementem \(\sigma\)-algebry \(\mathcal F\), to znaczy jest zdarzeniem w wyjściowej przestrzeni \(\Omega\). Oczywiście zbiór

\(\{\omega: \xi(\omega) > x\} \in \mathcal F \;\)

też jest zdarzeniem dla dowolnych wartości \(x\).

Rozważa się również zmienne losowe o wartościach w abstrakcyjnych przestrzeniach topologicznych (żeby analogicznie mówić o przeciwobrazach zbiorów borelowskich danej przestrzeni topologicznej) - i tak, na przykład: zmienne losowe o wartościach zespolonych nazywa się zmiennymi losowymi zespolonymi. Odwzorowanie mierzalne określone na przestrzeni \(\Omega\) o wartościach w przestrzeni \(R^n\) nazywa się wektorem losowym. Wektor losowy ma postać \( \xi(\omega) = \left(\xi_1(\omega), \xi_2(\omega), \dots, \xi_n(\omega)\right)\), gdzie \(\xi_i(\omega)\;\) dla \(i = 1, \dots, n\) są zmiennymi losowymi rzeczywistymi.

Rozkłady prawdopodobieństwa zmiennej losowej

Jeżeli badamy zjawiska losowe, to zwykle przypisujemy im jakieś wektory zmiennych losowych. Te zmienne losowe przyjmują wartości z pewnych zbiorów. Tymi zbiorami są często zbiory Borela. W teorii probabilistycznej pytamy, jakie jest prawdopodobieństwo tego, że zmienna losowa przyjmuje wartości należące np. do przedziału \((2, 8)\;\), a ten przedział jest zbiorem Borela. Analizując ruch cząstki Browna, możemy zapytać, jakie jest prawdopodoieństwo tego, że chwili czasu \(t=7 \;\) cząstka znajduje się w przedziale położeń \((2, 8)\). Jeżeli jesteśmy w stanie odpowiadac na tego typu pytania, to znaczy że znamy rozkłady prawdopodobieństa zmiennych losowych.

Formalna definicja brzmi:

Funkcją rozkładu (lub równoważnie rozkładem prawdopodobieństwa) \(\mathcal P_{\xi}(B) \;\) zmiennej losowej \(\xi\) nazywamy funkcję na przestrzeni fazowej zdefiniowanej w następujący sposób:

\(\mathcal P_{\xi}(B) = P(\{\omega: \xi(\omega) \in B\})\)

Funkcja \(\mathcal P \;\) ma wszystkie własności miary probabilistycznej: jest nieujemna, przeliczalnie addytywna i unormowana do jedności. To oznacza, że ma interpretację prawdopodobieństwa. Innymi slowy, \(\mathcal P_{\xi}(B) \;\) jest prawdopodobieństwem tego, że zmienna losowa przyjmuje wartości należące do zbioru Borela \(B\). Czasami stosuje się zapis


\(\mathcal P_{\xi}(B) = Pr(\xi \in B) \)             prawdopodobieństwo tego, że zmienna losowa \(\xi\) przyjmuje wartości należące do zbioru Borela \(B\)


Ponieważ narzucamy dodatkowy, ale naturalny warunek

\( P(\{\omega: \xi(\omega) = \pm \infty\}) = 0\)

to wynika stąd że

\(Pr (\xi = \pm \infty) = 0\)


Zwróćmy uwagę na różne oznaczenia prawdopodobieństw \(P\) i \(\mathcal P\). Zapis \(P(A)\) oznacza prawdopodobieństwo zdarzenia \(A\) w przestrzeni probabilistycznej \(\Omega\), natomiast zapis \(\mathcal P_{\xi}(B)\) oznacza prawdopodobieństwo zdarzenia w przestrzeni fazowej \(X\). Powyższą równość definiującą prawdopodobieństwa w przestrzeni fazowej \(X\) matematycy określają jako transport miary z jednej przestrzeni (tutaj \(\Omega\)) w inną przestrzeń (tutaj \(X\)). Jest to równość, której różne wersje są bardzo często wykorzystywane. Studenci powinni zrozumieć jej istotę. Zauważmy, że znając \(\mathcal P_{\xi}\), przestrzeń fazowa \(X\) staje się nowa przestrzenia probabilistyczną:

\((X, \mathcal B, \mathcal P_{\xi})\)

Na tej przestrzeni probabilistycznej można zdefiniować nową zmienną losową jako odwzorowanie zbioru \(X\) w zbiór \(Y\) będący nową przestrzenią fazową. Oczywiście w zbiorze \(Y\) należy zdefiniować \(\sigma\)-algebrę, np. zbiorów Borela. Konstrukcję taką możemy powtarzać wielokrotnie, otrzymując nowe zmienne losowe. Można zauważyć, że gdy mamy określone wszystkie trzy elementy w trójce \((X, \mathcal B, \mathcal P_{\xi})\), to wcale nie potrzebna nam jest wyjściowa przestrzeń probabilistyczna \((\Omega, \mathcal F, P)\). Możemy o niej zapomnieć, ponieważ znajomość funkcji rozkładu \(\mathcal P_{\xi} \) zmiennej losowej \(\xi\) jest wystarczająca do zbadania wszystkich probabilistycznych własności samej zmiennej losowej \(\xi\).

Niektóre zbiory Borela są bardziej "uprzywilejowane" od innych (jak to zwykle bywa na tym świecie). Przykładem wyjątkowo "uprzywilejowanego" zbioru Borela jest półprosta ( raczej rodzina półprostych)

\(B=(-\infty, x]\)

gdzie \(x\in R\) jest dowolna liczbą rzeczywistą.

Wówczas stosujemy specjalne oznaczenie dla rozkładu prowadopodobieństwa, a mianowicie

\(F_{\xi}(x) = \mathcal P_{\xi}(B) = \mathcal P_{\xi}( (-\infty, x]) = Pr(\xi \in (-\infty, x]) = Pr(\xi \le x) = P(\{\omega: \xi(\omega) \in (-\infty, x]\}) = P(\{\omega: \xi(\omega) \le x\})\)

Użyliśmy tu wszystkich możliwych form na zapis tej samej wielkości. Ponieważ wielkość ta zależy od wartości \(x\), to oznacza po prostu że jest to funkcja zależna od \(x\). Tak więc \(x\) traktujemy jako zmienną niezależną w funkcji \(F_{\xi}(x)\).

Rozkład powyższy nazywamy dystrybuantą zmiennej losowej \(\xi\). Dystrybuanta \(F_{\xi}(x)\) jest funkcją parametru \(x\), który wyznacza prawy koniec przedziału \((-\infty, x]\). Jeżeli wiemy o jaką zmienną losową chodzi (aby nie prowadziło to do niejednoznaczności) to stosujemy skrócony zapis

\(F(x) = F_{\xi}(x)\)


Przykłady zmiennej losowej i jej rozkłady prawdopodobieństwa

Podamy przykładY zmiennej losowej i wyliczymy jej różne rozkłady prawdopodobieństwa. PrzykładY te pozwolĄ studentowi wyrobić intuicję o własnościach dystrybuanty. Wprowadzimy też specjalny zapis dystrubuanty tej zmiennej losowej za pomocą funkcji schodkowej Heaviside'a, użyteczny pod wieloma względami, np. ułatwiający zapis różnych procesów stochastycznych i pozwalający na ich łatwe uogólnienia.


1. Doświadczenie polega na jednokrotnym rzucie kostką do gry. Wiec przestrzenią zdarzeń elementarnych jest zbiór

\(\Omega = \{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5, \omega_6 \}\)

Niech zmienna losowa \(\xi\) błędzie zdefiniowana przez relację

\(\xi(\omega_k) = 2k+3\)

Przestrzeń fazowa składa się z wartości tej funkcji, a mianowicie

\(X=\{\xi(\omega_k)\} = \{5, 7, 9, 11, 13, 15 \}\)

Zdarzenie

\(\{\xi(\omega) \le 9\} = \{\omega: \xi(\omega) \le 9 \} = \{\omega_1, \omega_2, \omega_3\} = \omega_1 \cup \omega_2 \cup \omega_3= A \).

Więc

\(F(9) = F_{\xi}(9) = P(A) = P(\{\omega_1, \omega_2, \omega_3\}) = P(\omega_1) + P(\omega_2) + P(\omega_3) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{1}{2} \)

Wykorzystaliśmy tu własność addytywności prawdopodobieństwa dla zdarzeń wzajemnie wykluczających się, \(\omega_i \cap \omega_j = \empty\) dla \(i \ne j\).

Zdarzenie

\(\{\xi(\omega) \le 0\} \)

jest zdarzeniem niemożliwym, to znaczy nie ma takich zdarzeń elementarnych \(\omega_k\), aby \(\xi(\omega_k) \le 0 \). Najmniejszą wartością zmiennej losowej jest liczba \(\xi(\omega_1) = 5\). Dlatego też

\(F(0) = Pr(\xi \le 0) =0\)

Natomiast zawsze na przykład \(\xi(\omega_k) \le 20 \). To jest pewne. Dlatego też

\(F(20) = Pr(\xi \le 20) =1\)


TU TRZEBA DOKONCZYC I DODAC RYSUNEK, DYSTRYBUANTE WYRAZIC ZA POMOCA TETA HEAVISIDE'A.

2. Oto przykład dziwnej zmiennej losowej. Definiujemy ją przez relację

\(\xi(\omega) = 3\)

Może ona być zdefiniowana dla dowolnej przestrzeni probabilistycznej. Jak ja interpretować? Niezależnie od wyniku \(\omega \) dowolnego doświadczenia przypisujemy jej wartość \(3\). Jest to analog funkcji stałej \(f(x)=3\): niezależnie od wartości zmiennej niezależnej \(x\), wartość funkcji zawsze wynosi \(3\). Użyliśmy określenia "dziwna zmienna losowa" ponieważ ta zmienna losowa tak naprawdę nie jest losowa: zawsze wynosi 3. Porównajcie ją z poprzednim przykładem: dla różnych \(\omega\) otrzymywaliśmy różne wartości \(\xi\). Tym razem, obojętnie jaka liczba oczek wypadnie, zawsze temu przypisujemy liczbę \(3\). Oczywiście zamiast liczby 3, może być wybrana każda inna liczba rzeczywista, np. \(\xi =c , \; c\in R\). Jej dystrybuanta może być wyznaczona podobnie jak w poprzednim przykładzie. W wyniku otrzymamy

\(F_{\xi}(x) = \theta(x-3)\)

Graficznie, jest to funkcja schodkowa o jednym schodku, patrz rysunek.

Jeżeli \(\xi(\omega) = c\) to \(F_{\xi}(x) = \theta(x-c)\). Zapamiętajcie ten przykład, ponieważ będzie on wielokrotnie wykorzystywany w różnym kontekście: Jeżeli zmienna losowa nie jest "losowa", to znaczy jest "deterministyczna", wówczas jej dystrybuanta jest funkcją teta Heaviside'a. Dla przykładu, jeżeli znamy dokładnie położenie cząstki Browna w chwili czasu \(t=0\) i wynosi \(\xi = 5\), to wówczas odpowiadająca temu dystrybuanta ma postać

\(F_{\xi}(x) = \theta(x-5)\)


3. Bardzo ważny przykład. Rozważmy dowolą przestrzen probabilistyczną \(\Omega\). Rozbijmy ją na dwa podzbiory \(A\) i jego dopełnienie \(A'\), to znaczy

\(\Omega = A \cup A'\), \( A \cap A' = \empty\)


Mamy dwa zdarzenia: zdarzenie \(A\) które nazwiemy umownie sukcesem i zdarzenie \(A'\) które nazwiemy umownie porażką. Mamy pojedyńcze doświadczenie E i w wyniku tego doświadczenie możemy otrzymać sukces \(A\) lub porażkę \(A'\). Niech prawdopodobieństwo sukcesu wynosi \(p=p_1\) i porażki \(q=p_2\), czyli

\(P(A) = p=p_1, \; P(A') = q=p_2, \; p+q=1\)


Zdefiniujmy zmienną losową \(\xi\) w następujący sposób:

\(\xi(A) = 1\)

\(\xi(A') = 0\)

Zauważmy, że prawdopodobieństwo tego że \(\xi=1\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A\), czyli

\(Pr (\xi = 1) = P(A) = p_1 \)

Podobnie, prawdopodobieństwo tego że \(\xi=0\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A'\), czyli

\(Pr (\xi = 0) = P(A') = p_2, \)

Ponieważ zmienna losowa przyjmuje dwie wartości, więc jej dystrybuanta składa się z dwóch schodków:

\(F_{\xi}(x) = p \theta(x-1) + q\theta (x-0) = p_1 \theta(x-1) + p_2 \theta (x-0) \)


4. Przykład podsumowujący. Niech przestrzeń probabilistyczna będzie sumą wzajemnie rozłącznych podzbiorów (zdarzeń wzajemnie wykluczających się) \(A_k \; (k=1, 2, 3, ..., n)\), to znaczy


\(\Omega = A_1 \cup A_2 \cup A_3 \cup ... \cup A_n\)

\(A_i \cap A_j = \empty\) dla \(i \ne j\)

i niech

\(P(A_k) = p_k, \; k=1, 2, 3, ... n\)

przy czym suma wszystkich prawdopodobieństw wynosi 1 (warunek unormowania),

\(\sum_{k=1}^{n} p_k = 1\)

Zdefiniujmy zmienną losową przez relację

\(\xi(A_k) = x_k, \; \; k=1, 2, 3, ... n\)

Zauważmy, że prawdopodobieństwo tego że \(\xi=x_k\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A_k\), czyli

\(Pr (\xi = x_k) = P(A_k) = p_k\)

Mając praktykę nabytą przy analizie poprzednich trzech przykładów możemy napisać wyrażenie na dystrybuantę tej zmiennej losowej:


                                                    \(F_{\xi} (x) = \sum_{k=1}^{n} p_k \theta(x-x_k)\) 


W wyrażeniu tym \(x_k\) - to są możliwe wartości zmiennej losowej \(\xi\), natomiast \(p_k =Pr(\xi = x_k)\) jest prawdopodobieństwem tego, że zmienna losowa \(\xi\) przyjmuje wartość \(x_k\).




Własności dystrybuanty

Wprost z definicji wnioskujemy o 2 własnościach:

(1) \(F_{\xi}(\infty) = Pr(\xi \le \infty) =1\)

(2) \(F_{\xi}(-\infty) = Pr(\xi \le -\infty) = 0\)

Pozostałe 3 własności to:

(3) \(F_{\xi}(x)\) jest funkcją niemalejącą, to znaczy

jeżeli \(x_1 < x_2 \) to \(F_{\xi}(x_1) \le F_{\xi}(x_2)\)

(4) \(F_{\xi}(x)\) jest funkcją prawostronnie ciągłą, to znaczy

\(\lim_{\epsilon \to 0^+} F_{\xi}(x+\epsilon) = F_{\xi}(x) \)

Zapisujemy to w skróconej postaci jako

\(F_{\xi}(x^+) = F_{\xi}(x) \)

(5) \(Pr(\xi = x) = \lim_{\epsilon \to 0^+}[F_{\xi}(x) - F_{\xi}(x-\epsilon)] = F_{\xi}(x) - F_{\xi}(x^-) \)

Wynika stąd, że jeżeli dystrybuanta jest funkcją ciągłą (prawostronnie i lewostronnie ciągłą) to

\(Pr(\xi = x) = 0 \)

Dystrybuanta, jak inne funkcje, niekoniecznie musi być różniczkowalna we wszystkich punktach (dla wszystkich wartości \(x\)). W zależności od własności funkcji \(F_{\xi}(x)\), możemy dokonać klasyfikacji zmiennych losowych. I tak jeżeli \(F_{\xi}(x)\) jest funkcją ciągłą i różniczkowalną, z wyjątkiem co najwyżej przeliczalnej liczby punktów (to znaczy nie jest różniczkowalna w co najwyżej przeliczalnej liczbie punktów), wówczas \(\xi \) nazywamy zmienną losową ciągłą. Jeżeli dystrybuanta jest funkcją schodkową, to \(\xi\) nazywa się zmienną losową dyskretną. Pozostałe zmienne losowe będziemy nazywać mieszanymi.

Z własności (5) wynika, że dla zmiennych losowych ciągłych \(Pr(\xi = x) = 0 \). To jest bardzo ważną własność. Jeżeli rozpatrujemy losowy ruch cząstki Browna, to prawdopodobieństwo tego, że w pewnej chwili czasu jest ona w położeniu x wynosi zero! Podobnie jest dla losowych procesów urodzin: prawdopodobieństwo tego, że dziecko urodzi się w chwili dajmy na to \(t=5\) wynosi zero. Dla zmiennych losowych ciągłych pytania innego typu mają nietrywialną odpowiedź. Tym pytaniem jest na przykład: jakie jest prawdopodobieństwo tego, że w pewnej chwili czasu cząstka znajduje się w przedziale położeń \((x_1, x_2)\) lub: jakie jest prawdopodobieństwo tego, że dziecko urodzi się w przedziale czasowym \((t_1, t_2)\). Odpowiedź na tego typu pytania daje znajomość dystrybuanty. Pokażemy obecnie, że dla \(x_2 > x_1\) zachodzi relacja


\(Pr(\xi \in (x_1, x_2]) = F_{\xi}(x_2) - F_{\xi}(x_1)\) 


Zauważmy, że zbiór

\(\{\xi \le x_2\} = \{\xi \le x_1 \} \cup \{x_1 < \xi \le x_2\} \)

oraz dwa ostatnie zbiory są rozłączne, to znaczy

\( \{\xi \le x_1 \} \cap \{x_1 < \xi \le x_2\} = \empty\)

Odpowiadające im zdarzenia wzajemnie wykluczają się, więc korzystając z \(\sigma\)-addytywności prawdopodobieństwa otrzymamy

\(Pr(\xi \le x_2) = Pr( \{\xi \le x_1 \} \cup \{x_1 < \xi \le x_2\}) = Pr(\xi \le x_1) + Pr(x_1 < \xi \le x_2) \)

Korzystając z kolei z definicji dystrybuanty, wyrażenie to można przepisać w postaci

\( F_{\xi}(x_2) = F_{\xi}(x_1) + Pr(\xi \in (x_1, x_2]) \)

Stąd otrzymujemy powyższą relację.


Gęstość rozkładu prawdopodobieństwa

Gęstość rozkładu prawdopodobieństwa zmiennej losowej

Dystrybuanta \(F_{\xi}(x)\) zmiennej losowej \(\xi\) jest funkcją \(x\), to znaczy prawego końca przedziału \(A=(-\infty, x]\) będącego zdarzeniem. Zdarzenie to ma taką oto interpretację: zmienna losowa \(\xi\in (-\infty, x]\). Pochodna

                                                           \(p_{\xi}(x) = \frac{dF_{\xi}(x)}{dx}\)


nazywa się gęstością rozkładu prawdopodobieństwa zmiennej losowej \(\xi\). Można też spotkać takie nazwy jak: funkcja gęstości, gęstość prawdopodobieństwa lub funkcja gęstości prawdopodobieństwa. Powyższe wyrażenie scałkujemy obustronnie w odpowiednich granicach:

\(\int_{-\infty}^x \frac{dF_{\xi}(y)}{dy} dy = F_{\xi}(x) - F_{\xi} =(-\infty) = F_{\xi}(x) = \int_{-\infty}^x p_{\xi}(y)dy \)

Związek ten pozwala wyrazić dystrybuantę przez gęstość prawdopodobieństwa. Rozpatrzmy teraz wzór (****) na prawdopodobieństwo tego, że zmienna losowa przyjmuje wartości z pewnego przedziału oraz skorzystajmy z powyższego wzoru. Otrzymamy wówczas:

\(Pr(\xi \in (x_1, x_2]) = F_{\xi}(x_2) - F_{\xi}(x_1) = \int_{-\infty}^{x_2} p_{\xi}(y)dy -\int_{-\infty}^{x_1} p_{\xi}(y)dy = \int_{-\infty}^{x_2} p_{\xi}(y)dy +\int_{x_1}^{-\infty} p_{\xi}(y)dy\)

Korzystając z własności całek oznaczonych możemy przepisać ten wzór w postaci


                                                 \( Pr \{ \xi \in (x_1, x_2])\} = \int_{x_1}^{x_2} p_{\xi}(y)dy \)


Jest to jedna z najważniejszych relację, która wiąże gęstość prawdopodobieństwa z prawdopodobieństwem.

Można również podać ogólniejszy wzór dla prawdopodobieństwa rozkładu, a mianowicie prawdopodobieństwo tego, że zmienna losowa \(\xi\) przyjmuje wartości z pewnego zbioru \(B\) wynosi


\( Pr \{ \xi \in B)\} = \int_{B} p_{\xi}(y)dy \)

Innymi słowy, należy gęstość rozkładu prawdopodobieństwa scałować po obszarze \(B\).


Własności gęstość rozkładu prawdopodobieństwa:

1. Ponieważ dystrybuanta jest funkcją niemalejącą to jej pochodna (czyli gęstość) jest funkcją nieujemną. Stąd

\(p_{\xi}(x) \ge 0\)  


2. Ponieważ \(F_{\xi}(\infty) = Pr(\xi \le \infty) =1\) stąd


\(\int_{-\infty}^{\infty} p_{\xi}(y)dy =1\)

Relację tę nazywa się warunkiem unormowania.

Można postawić sobie pytanie odwrotne, czy każdej funkcji \(p(x)\) o podanych powyżej dwóch własnościach odpowiada jakaś zmienna losowa? Odpowiedź jest pozytywna i matematycy formułują ją w postaci twierdzenia: tak, istnieje taka zmienna losowa dla której gęstość rozkładu prawdopodobieństwa ma postać \(p(x)\). Ponieważ istnieje nieskończenie wiele funkcji nieujemnych i normowalnych w różnych przestrzeniach fazowych, wiec istnieje także nieskończenie wiele zmiennych losowych.

Dla zmiennej losowej ciągłej, najczęściej przestrzenią fazową jest prosta (cała oś liczbowa), półprosta lub odcinek. Wówczas warunek unormowania odnosi się do prostej, półprostej lub odcinka. W dwóch ostatnich przypadkach warunek unormowania ma na przykład postać:

\(\int_{0}^{\infty} p_{\xi}(y)dy =1 \)

gdy przestrzenią fazową jest zbiór \(X = [0, \infty)\) lub

\(\int_{0}^{1} p_{\xi}(y)dy =1\)

gdy przestrzenią fazową jest odcinek \(X = [0, 1] \).

Zapis dla przypadków tego typu zawsze mozna sprowadzić do jednolitego zapisu z przedziałem całkowania \(X = )-\infty, \infty)\) poprzez przedefiniowanie funkcji gęstości rozkładu prawdopodobieństwa, wykorzystując funkcję schodkową Heaviside'a \(\theta(x)\). I tak dla półprostej

\(p_{\xi}(x) -> {\tilde p}_{\xi}(x) = \theta(x) p_{\xi}(x)\)

Wówczas warunek unormowania można zapisać w postaci

\(\int_{-\infty}^{\infty} {\tilde p}_{\xi}(y)dy =1 \)

Podobnie, gdy \(X = [0, 1]\), przedefiniowana gęstość ma postać

\(p_{\xi}(x) -> {\tilde p}_{\xi}(x) = \theta(x) \theta (1-x) p_{\xi}(x)\)


UWAGA: Niektórzy studenci (ci o słabszym opanowaniu wiadomości z teorii funkcji i teorii całki) mają kłopoty ze zrozumieniem zapisu różnych wyrażeń matematycznych. Przykładem takim są równoważne wyrażenia


\(\int_{-\infty}^{\infty} p_{\xi}(y)dy = \int_{-\infty}^{\infty} p_{\xi}(x)dx = \int_{-\infty}^{\infty} p_{\xi}(u)du = \int_{-\infty}^{\infty} p_{\xi}(s)ds =1\)

Należy pamiętać, że zmienna całkowania jest "niemą" zmienną i można ją oznaczać dowolnymi literami, a nie tylko literą "x" czy "y".


Przykłady gęstości prawdopodobieństwa dla zmiennych losowych ciągłych


Każdy z czytelników może wymyślać swoje własne zmienne losowe wybierając jakieś nieujemne i normowalne funkcje. Ale taka zabawa nie byłaby zbytnio konstruktywna ponieważ trudno byłoby taką metodą podać realne zjawiska które mają takie rozkłady. My podamy 3 możliwe funkcji abstrahując na razie od analizy samych zmiennych losowych i żródła ich występowania. Zwróćmy uwagę na różne przestrzenie fazowe dla poszczególnych zmiennych losowych, to znaczy dopuszczalne wartości zmiennej \(x\).

1. Zmienna losowa normalna (gaussowska, o rozkładzie Gaussa) opisywana jest gęstością prawdopodobieństwa w postaci

\(p(x) = N \exp(-ax^2)\), \(x\in (-\infty, \infty)\),

parametr \(a>0\), stałą \(N\) wyznacza się z warunku unormowania


2. Zmienna losowa o rozkładzie gamma

\(p(x) = N x^b \exp(-ax)\), \(x\in [0, \infty)\), \(b > -1\)

\(a\) i \(N\) - podobnie jak w przykładzie 1.


3. Zmienna losowa o rozkładzie beta

\(p(x) = N x^b (1-x)^c \), \(x\in [0, 1]\), \(b, c > -1\)

\(N\) - podobnie jak w przykładzie 1.


Wszystkie trzy przykłady opisują zmienne losowe ciągłe odpowiednio na przestrzeniach fazowych: \((-\infty, \infty)\), \([0, \infty)\) oraz \([0, 1]\).



Gęstość prawdopodobieństwa dla zmiennych losowych dyskretnych

Możemy rozpatrzeć przykład 4 zmiennej losowej, ponieważ zawiera on pozostałe 3 przykłady jako przypadki szczególne. Poniweaż znamy dystrybuantę dla tej zmiennej losowej, to wyznaczenie gęstości prawdopodobieństwa polega na zróżniczkowaniu tej funkcji. Jedynym problemem jest obliczenie pochodnej funkcji tetea Heaviside'a. Ponieważ funkcja ta jest funkcją nieciągłą, wieć z pewnością standardowa pochodna nie istnieje w każdym punkcie. Natomiast z pewnością istnieje pochodna uogólniona, czyli innymi słowy pochodna w sensie teorii dystrybucji lub krócej: pochodna dystrybucyjna. Z teorii dystrybucji wiemy, że

\(\frac{d\theta(x)}{dx} = \delta(x)\)


gdzie \(\delta(x)\) jest dystrybucją Diraca nazywaną potocznie deltą Diraca lub funkcją delta Diraca (chociaż nie jest to funkcja w potocznym czy standardowym sensie).

Korzystajac z powyższej formuły dla pochodnej funkcji schodkowej oraz ze wzoru na dystrybuantę zmiennej losowej losowej, możemy napisać wyrażenie na gęstość prawdopodobieństwa zmiennej losowej losowej dyskretnej w postaci:


                                                    \(p_{\xi} (x) = \sum_{k=1}^{n} p_k \delta(x-x_k)\) 


W wyrażeniu tym \(x_k\) - to są możliwe wartości zmiennej losowej \(\xi\), natomiast \(p_k =Pr(\xi = x_k)\) jest prawdopodobieństwem tego, że zmienna losowa \(\xi\) przyjmuje wartość \(x_k\).

Momenty statystyczne zmiennej losowej

w praktycznych zastosowaniach,często interesują nas niektóre charakterystyki probabilistyczne zmiennej losowej. Typową taką wielkością jest wartość średnia zmiennej losowej. W literaturze istnieją też inne nazwy na wartość średnią: wartość oczekiwana, wartość przeciętna, nadzieja matematyczna, pierwszy moment statystyczny, moment statystyczny pierwszego rzędu. Pojęcie to jest uogólnieniem prostego pojęcia średniej z dwóch liczb: Jeżeli mamy dwie liczby, na przykład 2 oraz 6 to wartość średnia wynosi \((2+6)/2=4\). Ogólniej, dla dwóch liczb a oraz b, wartość średnia wynosi \((a+b)/2\). Dla zbioru liczb \((x_1, x_2, x_3, ..., x_n)\) wartość średnia wynosi

\(\frac{x_1+ x_2+ x_3+ ...+ x_n}{n}= \sum_{k=1}^{n} \frac{1}{n} x_k\).

Jeżeli mamy określoną zmienną losową dyskretną \(\xi=\{x_1, x_, x_3, ..., x_n\}\) przyjmującą wartości \(x_k\) z prawdopodobieństwem \(p_k\), to wartość średnia \( <\xi> \) zmiennej losowej \(\xi\) jest naturalnym uogólnieniem powyższego wzoru i ma postać

                                             \(<\xi> = \sum_{k=1}^{n} p_k x_k\)

Niektórzy (zwłaszcza matematycy i kręgi zbliżone do nich) stosują inne oznaczenie na wartość średnią, a mianowicie

\(<\xi> = m_1 = E \xi = E ( \xi )= \mathbb E\xi \)

Litera E pochodzi od angielskiego słowa "Expectation" oznaczającego "oczekiwanie, nadzieja". Fizycy wolą stosować swoje oznaczenie \(<\xi>\).


Jeżeli zmienna losowa jest typu ciągłego o gęstości prawdopodobieństwa \(p_{\xi}(x)\) to jej wartość średnia wyraża się przez całkę

                                             \(<\xi> = \int_{-\infty}^{\infty}  x p_{\xi}(x) dx\)

gdzie obszarem całkowania jest przestrzeń fazowa \(X=(-\infty, \infty)\). W przypadku przestrzeni fazowych: \([0, \infty)\) oraz \([0, 1]\) wartość średnia ma odpowiednio postać

\(<\xi> = \int_{0}^{\infty} x p_{\xi}(x) dx\)

\(<\xi> = \int_{0}^{1} x p_{\xi}(x) dx\)

Oczywiscie granice całkowania można rozciągnąć do całej osi liczb rzeczywistych \((-\infty, \infty)\), ale należy pamiętać o przedefiniowaniu gęstości rozkładu z użyciem funkcji schodkowej Heaviside'a \(\theta(x)\), podobnie jak to podaliśmy w przykładach na temat unormowania funkcji rozkładu.

Wartość średnia jest momentem statystycznym zmiennej losowej. Jest to pierwszy moment lub moment pierwszego rzędu. Moment k-tego rzędu \(m_k\) jest zdefiniowany przez wyrażenie


\(m_k = <\xi^k> = \int_{-\infty}^{\infty} x^k p_{\xi}(x) dx\)

Kilka pierwszych momentów znajduje klarowne zastosowanie do analizy zmiennych losowych. Drugi moment - przy badaniu odchylenia wartości zmiennej losowej od swej wartości średniej, a dokładniej

\(\sigma^2 = m_2-m_1^2 = <(\xi - m_1)^2> = <\xi^2> - <\xi>^2 \)

Wielkość ta nazywa się wariancją zmiennej losowej, a pierwiastek kwadratowy \(\sqrt (\sigma^2)\) nazywa się odchyleniem standardowym.

Moment trzeciego rzędu pojawia się w "skośności" i jest miarą asymetrii gęstości prawdopodobieństa, natomiast moment czwartego rzędu pojawia się w kurtosis, wielkości która jest miarą spłaszczenia (lub ostrości) gęstości prawdopodobieństwa wokół wartości średniej oraz służy też jako miara odstępstwa od rozkładu normalnego (gaussowskiego).

Funkcja charakterystyczna zmiennej losowej

Momenty statystyczne zmiennej losowej zostały zdefiniowane w poprzedniej części. Matematyk doszukał by się tam oszustwa matematycznego. Dlaczego? Jeżeli badamy moment statystyczny drugiego rzędu \(m_2= <\xi^2>\), to zauważmy że tym wyrażeniu pojawia się wielkość \(\xi^2\), którą de facto nie zdefiniowaliśmy. Wielkość \(\eta=\xi^2\) jest nową zmienna losową \(\eta\) określoną na przestrzeni probabilistycznej \(X\). Poniewaz \(\eta \)jest zmienna losową, więc możemy zdefiniować jej rozkład prawdopodobieństwa \(h_{\eta}(y)\). Mając rozkład prawdopodobieństwa \(h_{\eta}(y)\) można zdefiniować wartość średnią

\(<\eta> = \int_{-\infty}^{\infty} y h_{\eta}(y) dy\)

Okazuje się że średnia tą można wyrazić przez wzór

\(<\eta> = <\xi^2> = \int_{-\infty}^{\infty} x^2 p_{\xi}(x) dx\)


Z powyższych dwóch wzorów można znależć gęstość \(h_{\eta}(y)\) z gęstości \(p_{\xi}(x)\) (stosując podstawienie \(y=x^2\) i dokonując zamiany zmiennej w drugiej całce.

Istnieje także ogólniejsza relacja: dla dowolnej funkcji \(g\) zmiennej losowej \(\xi\), to znaczy dla funkcji \(g(\xi)\), jej wartość średnia wynosi


\( <g(\xi)> = \int_{-\infty}^{\infty} g(x) p_{\xi}(x) dx\)

Wybierzmy teraz jako funkcję \(g\) funkcję exponencjalną, to znaczy \(g(x) = \exp(i\omega x)\), gdzie \(\omega \in R\) jest dowolną liczbą rzeczywistą. Uwaga: \(\omega\) nie ma nic wspolnego ze zdarzeniem elementarnym. Wówczas otrzymamy


\( <\exp(i \omega \xi> = \int_{-\infty}^{\infty} \exp(i\omega x) p_{\xi}(x) dx\)


Wielkość ta zależy od wartości liczby \(\omega\). Nazywa się ona funkcją charakterystyczną zmiennej losowej \(\xi\) i oznacza w następujący sposób:

                                                \(C_{\xi}(\omega) = <e^{i\omega \xi}> = \int_{-\infty}^{\infty}  e^{i\omega x}  p_{\xi}(x) dx\)                            


Ławto zauważyć, że jest to transformata Fouriera gęstości prawdopodobieństa \( p_{\xi}(x)\). Z teorii transformat Fouriera wynika, że relację powyższą można odwrócić i wyrazić gęstości prawdopodobieństwa \( p_{\xi}(x)\) przez funkcję charakterystyczną \(C_{\xi}(\omega)\). Innymi słowy, trzeba wykorzystać wzór na transformację odwrotną

\(p_{\xi}(x) = \frac{1}{2\pi} \int_{-\infty}^{\infty} e^{-i\omega x} C_{\xi}(\omega) d\omega \)

Podsumowując, można powiedzieć, że zmienna losowa może być równoważnie scharakteryzowana albo przez dystrybuantę \(F_{\xi}(x)\), albo przez gęstość prawdopodobieństwa \(p_{\xi}(x)\), albo przez funkcję charakterystyczną \(C_{\xi}(\omega)\).

Znajomość funkcji charakterystycznej jest wyjątkowo przydatna: bardzo łatwo jest wyznaczyć momenty statystyczne zmiennej losowej. Jeżeli zróżniczkujemy ze względu na \(\omega\) relację (...), to otrzymamy

\(\frac{dC_{\xi}(\omega)}{d\omega} = \int_{-\infty}^{\infty} e^{i\omega x} (i x) p_{\xi}(x) dx\)

Wyrażenie to dla \(\omega = 0 \) przyjmuje postać


\(\frac{dC_{\xi}(\omega)}{d\omega}|_{\omega =0} = i \int_{-\infty}^{\infty} x p_{\xi}(x) dx = i <\xi>\)


Widać, że wartość pochodnej funkcji charakterystycznej dla \(\omega=0\) determinuje wartość średnia zmiennej losowej.

Podobnie otrzymamy


\(\frac{d^k C_{\xi}(\omega)}{d\omega^k}|_{\omega =0} = i^k \int_{-\infty}^{\infty} x^k p_{\xi}(x) dx = i <\xi^k>\)

Otrzymujemy w ten sposób momenty statystyczne zmiennej losowej. Zamiast uciążliwej procedury obliczania całek, które pojawiają sie w relacjach definiujących momenty statystyczne, wystarczy zróżniczkować funkcję charakterystyczną, co jest operacją technicznie znacznie łatwiejszą niż całkowanie.


Momenty statystyczne zmiennej losowej dyskretnej

Wszystkie wzory podane na momenty statystyczne i dla funkcji charakterystycznej sa słuszne zarówno dla zmiennych losowych typu ciągłego jak i typu dyskretnego. Czasami wygodniej jest uprościć powyższe formuły gdy analizujemy zmienne losowe dyskretne. W tym celu, w formułach tych należy wstawić odpowiednie wyrażenie dla gęstości rozkładu prawdopodobieństwa

\(p_{\xi} (x) = \sum_{k=1}^{n} p_k \delta(x-x_k)\)

pamiętając o całkowaniu gdy pod całką występuje delta Diraca (patrz Dodatek matematryczny)


Podamy teraz listę odpowiednich formuł dla zmiennej losowej dykretnej \(\xi = \{x_1, x_2, ..., x_n\}\) gdy \(Pr(\xi = x_k) = p_k\).

Moment statystyczny l-tego rzędu

\(<\xi^l> = \sum_{k=1}^n x_k^l \, p_k \)

Wartość średnia

\(<g(\xi)> = \sum_{k=1}^n g(x_k) \,  p_k \)

Funkcja charakterystyczna

\(C_{\xi}(\omega) = < e^{i \omega \xi}> = \sum_{k=1}^n e^{i\omega x_k} \, p_k \)

Dwie zmienne losowe

Będziemy rozważali jedna przestrzen probabilistyczną, dwie przestrzenie fazowe \(X\) i \(Y\) oraz dwa odwzorowania:

(1) odwzorowanie przestrzeni \((\Omega, F, P)\) w przestrzeń fazową \((X, {\mathcal B}_1)\) wraz z \(\sigma\)-algebrą \({\mathcal B}_1\) zbioru \(X\). Zwykle \(X=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}_1\) są zbiory Borela. Odwzorowanie to oznaczymy przez \(\xi\):

\(\xi : \Omega \to X\)


(2) odwzorowanie przestrzeni \((\Omega, F, P)\) w przestrzeń fazową \((Y, {\mathcal B}_2)\) wraz z \(\sigma\)-algebrą \({\mathcal B}_2\) zbioru \(Y\). Zwykle \(Y=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}_2\) są zbiory Borela. Odwzorowanie to oznaczymy przez \(\eta\):

\(\eta : \Omega \to Y\)

Narzucimy podobne warunki jak dla jednej zmiennej losowej: przeciwobrazy zbiorów Borela \(B_1 \in {\mathcal B}_1)\) oraz \(B_1 \in {\mathcal B}_1)\) są zdarzeniami w przestrzeni probabilistycznej \(\Omega\). Otrzymujemy w ten sposów dwie zmienne losowe \(\xi \) i \(\eta\). Interesują nas teraz łaczne rozkłady prawdopodobieństwa dwóch zmiennych losowych na tej samej przestrzeni \(\Omega\). Dla przykładu zdarzenie

\(\{\xi \in B_1, \eta \in B_2\} = \{\xi \in B_1\} \cap \{\eta \in B_2\} = \{ \eta \in B_2\} \cap \{\xi \in B_1 \} =\{ \eta \in B_2, \xi \in B_1, \} \)

oznacza tyle że zmienna losowa \(\xi\) przyjmuje wartości ze zbioru Borela \(B_1 \in {\mathcal B}_1\) i jednocześnie zmienna losowa \(\eta\) przyjmuje wartości ze zbioru Borela \(B_2 \in {\mathcal B}_2\).

Pytamy, ile wynosi prawdopodobieństwo

\(P_{\xi \eta}(B_1, B_2) = Pr(\xi \in B_1, \eta \in B_2) = P(\{\omega: \xi(\omega) \in B_1, \eta(\omega) \in B_2\})\)

Wielkość tą nazywamy łącznym rozkładem prawdopodobieństwa dwóch zmiennych losowych \(\xi \) i \(\eta\).

Podobnie definiujemy łączną dystrybuantę dwóch zmiennych losowych

\(F_{\xi \eta}(x, y) = Pr(\xi \le x, \eta \le y) = P(\{\omega: \xi(\omega) \le x, \eta(\omega) \le y\})\)

Stosując konsekwentnie powyższy zapis, możemy podać ciąg równości:

\(F_{\xi \eta}(x, y) = Pr(\xi \le x, \eta \le y) = Pr( \eta \le y, \xi \le x) = F_{\eta \xi}(y, x)\)

Pamiętajmy, że sekwencja poszczególnych oznaczeń (liter) jest tu istotna dla poprawnego zrozumienia różnych zapisów. Łatwo zauważyć, że spełnione są relacje

\(F_{\xi \eta}(x, \infty) = Pr(\xi \le x, \eta \le \infty) = Pr(\xi \le x) = F_{\xi}(x)\)

\(F_{\xi \eta}(\infty, y) = Pr(\xi \le \infty, \eta \le y) = Pr(\eta \le y) =F_{\eta}(y) \)

Skorzystaliśmy tu z tego, że prawdopodobieństwo tego iż zmienna losowa przyjmuje zawsze skończone wartości wynosi jeden. Innymi slowy, zawsze jest spelniona nierownosc \(\xi \le \infty\).

Dystrybuanty \(F_{\xi}(x)\) i \(F_{\eta} (y)\) nazywaja się rozkładami zredukowanymi.


Gęstość rozkładu prawdopodobieństwa

Dla jednej zmiennej losowej, gęstość rozkładu prawdopodobieństwa była zdefiniowana jako pochodna dystrybuanty \(F_{\xi}(x)\) ze względu na \(x\). Dla dwóch zmiennych losowych, dystrybuanta \(F_{\xi \eta}(x, y)\) zależy od dwóch zmiennych \(x\) i \(y\). Więc gęstość rozkładu prawdopodobieństwa definiujemy jako pochodną ze względu na \(x\) i \(y\), czyli pochodną miweszaną drugiego rzędu:

\(p_{\xi \eta}(x, y) = \frac{\partial^2 F_{\xi \eta}(x, y)}{\partial x \, \partial y} = \frac{\partial^2 F_{\xi \eta}(x, y)}{\partial y \, \partial x}\)


Powyższe wyrażenie scałkujemy obustronnie po \(x\) i \(y\) w odpowiednich granicach:

\(\int_{-\infty}^x \int_{-\infty}^y \frac{\partial^2 F_{\xi \eta}(u, v)}{\partial u \, \partial v} du dv = F_{\xi \eta}(x, y) = \int_{-\infty}^x \int_{-\infty}^y p_{\xi \eta}(u, v) du dv \)

Związek ten pozwala wyrazić dystrybuantę przez gęstość prawdopodobieństwa. Przy operacji całkowania wykorzystaliśmy tu własności dystrybuanty:

\(F_{\xi \eta}(x, -\infty) = Pr(\xi \le x, \eta \le -\infty) = 0 \)

\(F_{\xi \eta}(-\infty, y) = Pr(\xi \le -\infty, \eta \le y) = 0 \)

\(F_{\xi \eta}(-\infty, -\infty) = Pr(\xi \le -\infty, \eta \le -\infty) = 0 \)

Ponieważ

\(F_{\xi \eta}(\infty, \infty) = Pr(\xi \le \infty, \eta \le \infty) = 1 \)

więc otrzymujemy warunek unormowania dla gęstości prawdopodobieństwa


\( \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p_{\xi \eta}(u, v) du dv = F_{\xi \eta}(\infty, \infty) =1 \)


Prawdopodobieństwo tego, że zmienna losowa \(\xi \in (x_1, x_2]\) i zmienna losowa \(\eta \in (y_1, y_2]\) wynosi

\(Pr(\xi \in (x_1, x_2], \eta \in (y_1, y_2]) = Pr(x_1 < \xi \le x_2, y_1 < \eta \le y_2) = \int_{x_1}^{x_2} \int_{y_1}^{y_2} p_{\xi \eta}(u, v) du dv\)

Skorzystalismy tu z następującej relacji

\( Pr(x_1 < \xi \le x_2, y_1 < \eta \le y_2) = Pr(x_1 < \xi \le x_2, \eta \le y_2) -Pr(x_1 < \xi \le x_2, \eta \le y_1) \)

\( = \left[Pr( \xi \le x_2, \eta \le y_2) - Pr( \xi \le x_1, \eta \le y_2) \right] - \left[ Pr( \xi \le x_2, \eta \le y_1) - Pr( \xi \le x_1, \eta \le y_1)\right] \)

\( = [F(x_2, y_2) - F(x_1, y_2) ] - [ F(x_2, y_1)- F(x_1, y_1)] = F(x_2, y_2) - F(x_1, y_2) - F(x_2, y_1)+ F(x_1, y_1)\)

oraz z własności całek oznaczonych.

Można również podać ogólniejszy wzór dla prawdopodobieństwa rozkładu, a mianowicie prawdopodobieństwo tego, że zmienne losowe \(\xi\) i \(\eta\) przyjmują wartości z pewnego zbioru \(D\) na płaszczyźnie


\( Pr \{ (\xi, \eta) \in D)\} = \int \int_{D} p_{\xi \eta}(x, y) dx dy \)

Innymi słowy, należy gęstość rozkładu prawdopodobieństwa scałować po obszarze \(D\).


Rozkłady zredukowane

Jeżeli znamy łączny rozkład prawdopodobieństwa \(p_{\xi \eta}(x, y)\) dwóch zmiennych losowych, wówczas znamy też wszystkie charakterystyki jednej zmiennej losowej \(\xi \) czy też \(\eta\), to znaczy znamy też rozkłady \(p_{\xi}(x)\) i \(p_{\eta}(y)\) dla tych zmiennych losowych. Te rozkłady nazywają się rozkładami zredukowanymi (marginalnymi). Jak otrzymać rozkład zredukowany \(p_{\xi}(x)\) z rozkładu łącznego \(p_{\xi \eta}(x, y)\)? Punktem wyjścia będzie związek całkowy między dystrybuantą \(F_{\xi \eta}(x, y)\)a gęstością \(p_{\xi \eta}(x, y)\) dany przez równanie (%%%%),

\( F_{\xi \eta}(x, y) = \int_{-\infty}^x \int_{-\infty}^y p_{\xi \eta}(u, v) du dv \)

Z jednej strony

\( F_{\xi \eta}(x, \infty) = \int_{-\infty}^x \int_{-\infty}^{\infty} p_{\xi \eta}(u, v) du dv \)

Z drugiej strony

\( F_{\xi \eta}(x, \infty) = Pr(\xi \le x, \eta \le \infty) = \Pr(\xi \le x) = F_{\xi}(x) \)


Stąd otrzymujemy równość

\( F_{\xi}(x) = \int_{-\infty}^x \int_{-\infty}^{\infty} p_{\xi \eta}(u, v) du dv \)

Wyraziliśmy w ten sposób dystrybuantę zredukowaną przez łączną gęstość prawdopodobieństwa. Pamietamy, że pochodna dystrybuanty \( F_{\xi}(x)\) względem \(x\) jest gęstością \(p_{\xi}(x)\), więc

\( \frac{d F_{\xi}(x)}{dx} = p_{\xi}(x) = \int_{-\infty}^{\infty} p_{\xi \eta}(x, v) dv \)


Skorzystaliśmy z podstawowego twierdzenia teorii całki dotyczącego różniczkowania całki względem górnej granicy całkowania (patrz Dodatek).

Podobnie można pokazać, że

\( p_{\eta}(y) = \int_{-\infty}^{\infty} p_{\xi \eta}(u, y) du \)

Otrzymujemy następującą receptę na zredukowane rozkłady: Aby otrzymać gęstość rozkładu prawdopodobieństwa dla jednej zmiennej losowej, należy wycałkować łączną gęstość rozkładu prawdopodobieństwa dla dwóch zmiennych losowych po wszystkich możliwych wartościach drugiej zmiennej losowej.

W przypadku zmienny losowych dyskretnych obowiązuje ta sama recepta. Ale w tym przypadku odpowiednie wzory można przedstawić w innej postaci. Sprecyzujmy to zagadnienie: Rozważamy dwie zmienne losowe dyskretne o możliwych wartościach \(\xi = x_i\) i \(\eta =y_k\), to znaczy

\(\xi = \{x_1, x_2, x_3, ..., x_n\}\)

\(\eta = \{y_1, y_2, y_3, ..., y_m\}\)

W ogólności \(n \ne m\), ale możliwe są przypadki gdy \(n=m\). Łączny rozkład prawdopodobieństwa jest określony gdy znamy wszystkie prawdopodobieństwa

\(p_{ik} = Pr\{\xi=x_i, \eta = y_k\} \ge 0\)


Warunek unormowania przyjmuje teraz postać


\(\sum_{i=1}^{n}\sum_{k=1}^{m} p_{ik} = 1\)


Zredukowane prawdopodobieństwa otrzymujemy ze związków

\(p_i= Pr\{ \xi =x_i\} = \sum_{k=1}^{m} p_{ik} \)

\(q_k= Pr\{ \eta =y_k\} = \sum_{i=1}^{n} p_{ik} \)


Związki te można otrzymać z poprzednich relacji pamiętając, że gęstość rozkładu prawdopodobieństwa dla dwóch zmiennych losowych dyskretnych mozna przedstawić za pomocą wzoru

\(p_{\xi \eta}(x, y) = \sum_{i=1}^{n}\sum_{k=1}^{m} p_{ik} \delta(x-x_i) \delta(y-y_k) \)

Pamiętajmy, że dla jednej zmiennej losowej mamy przedstawienie za pomocą wzorów

\(p_{\xi}(x) = \sum_{i=1}^{n}p_{i} \delta(x-x_i)\)

\(p_{\eta}(y) = \sum_{k=1}^{m} q_{k} \delta(y-y_k) \)

Wektor zmiennych losowych

W teorii procesów stochastycznych, w teorii szeregów czasowych, w statystyce musimy rozważać wiele (czasami nieskończenie wiele) zmiennych losowych na tej samej przestrzeni probabilistycznej \((\Omega, \mathcal F, P)\). Mówimy wówczas o wektorze zmiennych losowych lub o wektorze losowym:

\({\mathbf \xi} = [\xi_1, \xi_2, ..., \xi_n]\)

lub dokładniej

\({\mathbf \xi}(\omega) = [\xi_1(\omega), \xi_2(\omega), ..., \xi_n(\omega)]\)

Jest to wektor losowy o \(n\)-składowych, gdzie

\(\xi_k : \Omega \to X_k \; k=1, 2, 3, \dots , n\)

jest mierzalnym odwzorowaniem w przestrzeń fazową \((X_k, {\mathcal B}_k)\). Zwykle \(X_k=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}_k\) są zbiory Borela na zbiorze liczb rzeczywistych.

Podobnie jak w przypadku dwóch zmiennych losowych, rozważamy łaczne rozkłady prawdopodobieństwa.

\(P_[[:Szablon:\mathbf \xi]](B_1, B_2, ..., B_n) = Pr(\xi_1 \in B_1, \xi_2 \in B_2, \ ..., \xi_n \in B_n) = P(\{\omega: \xi_1(\omega) \in B_1, \xi_2(\omega) \in B_2, \ ..., \xi_n(\omega) \in B_n)\)

Wielkość tą nazywamy łącznym rozkładem prawdopodobieństwa \(n\)-zmiennych losowych lub n-wymiarowym rozkładem oprawdopodobieństwa. Podobnie definiujemy łączną dystrybuantę \(n\)-zmiennych losowych

\(F(x_1, x_2, ..., x_n) = Pr(\xi_1 \le x_1, \xi_2 \le x_2, ..., \xi_n \le x_n) \)


Nie będziemy używać dolnych wskaźników dla oznaczenia, o jakie zmienne losowe chodzi. Możemy powyzszą dystrybuante nazywać n-wymiarową dystrybuantą i aby to uwypuklić, czasami będziemy oznaczać to dolnym wskaźnikiem jako \(F_n(x_1, x_2,..., x_n)\). Gęstość rozkładu prawdopodobieństwa n-zmiennych losowych definiujemy przez uogólnienie wzorów dla jednej i dwóch zmiennych losowych:

\( p(x_1, x_2, ..., x_n) = \frac{ \partial^n F(x_1, x_2, ..., x_n)}{\partial x_1 \partial x_2 ... \partial x_n} \)

Możemy ją nazwać n-wymiarową gęstością rozkładu prawdopodobieństwa. Warunek unormowania ma postać

\( \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} p(x_1, x_2, ..., x_n) dx_1 dx_2...dx_n = 1 \)


Wartość średnia funkcji

\(g(\xi_1, \xi_2, ..., \xi_n) \)

wektora losowego \(\xi\) ma postać


\( <g(\xi_1, \xi_2..., \xi_n)> = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} g(x_1, x_2, ..., x_n) p(x_1, x_2, ..., x_n) dx_1 dx_2 ... dx_n \)


Funkcja charakterystyczna wektora losowego \(\xi\) jest zdefiniowana podobnie jak dla jednej zmiennej losowej. Wprowadzimy następujące oznaczenia

\({\mathbf x}= [x_1, x_2, ... , x_n] \)

\({\mathbf \omega} = [\omega_1, \omega_2, ... , \omega_n ]\)

\( d^n{\mathbf x}= dx_1 \, dx_2 \, ... \, dx_n \)


Wówczas funkcja charakterystyczna wektora losowego jest określona przez wzór


\( C_{\mathbf \xi}(\mathbf \omega) = C(\omega_1, \omega_2, \dots \omega_n) = \langle e^{i {\mathbf \omega} \cdot {\mathbf \xi(t)} } \rangle = \langle \exp \left[i \sum_{k=1}^n \omega_k \xi_k(t)\right] \rangle \\ = \int_{-\infty}^{\infty} e^{i {\mathbf \omega} \cdot {\mathbf x} } p_{\mathbf \xi}({\mathbf x}) d^n{\mathbf x} = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{i \sum_{k=1}^n \omega_k x_k} p(x_1, x_2, ..., x_n) \, dx_1 dx_2 \dots dx_n \)


Wyrażenie to jest n-wymiarową transformatą Fouriera gęstości rozkładu prawdopodobieństwa \(p(x_1, x_2, ..., x_n)\). Odwrotna transformata Fouriera ma postać

\( p_[[:Szablon:\mathbf \xi]]({\mathbf x}) = p(x_1, x_2, ..., x_n) = \frac{1}{(2\pi)^n} \int_{-\infty}^{\infty} e^{-i {\mathbf \omega} \cdot {\mathbf x} } C_{\xi}({\mathbf \omega}) d^n{\mathbf \omega} = \frac{1}{(2\pi)^n} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{-i \sum_{k=1}^n \omega_k x_k} C(\omega_1, \omega_2, \dots \omega_n) \, d\omega_1 d\omega_2 \dots d\omega_n \)



Można też otrzymać zredukowane rozkłady. Mogą to być rozkłady jedno-wymiarowem \(p(x_k)\), dwu-wymiarowe \(p(x_i, x_k)\), trój-wymiarowe \(p(x_i, x_j, x_k)\), itd. Otrzymujemy je z n-wymiarowego rozkładu \(p(x_1, x_2, ..., x_n)\) poprzez wycałkowanie po odpowiednich zmiennych. Podamy kilka przykładów ilustrujących tę receptę:


\( p(x_1, x_2, x_4) = \int_{-\infty}^{\infty} p(x_1, x_2, x_3, x_4) dx_3 \)


\( p(x_1, x_4) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x_1, x_2, x_3, x_4) dx_2 dx_3 \)

\( p(x_4) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x_1, x_2, x_3, x_4) dx_1 dx_2 dx_3 \)

\( p(x_2) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x_1, x_3, x_4) dx_1 dx_3 dx_4 \)

Zmienne losowe niezależne

Jeżeli rzucamy dwukrotnie monetą, to wynik w drugim rzucie nie zależy od wyniku w pierwszym rzucie (oczywiście zakładamy, że nie oszukujemy). Jeżeli wynik w pierwszym rzucie oznaczymy jako \(\xi\), a w drugim rzucie jako \(\eta\) i nazwiemy je zmiennymi losowymi, to możemy powiedzieć że te dwie zmienne losowe są od siebie niezależne. To intuicyjne pojęcie niezależności można sprecyzować matematycznie dla dowolnych zmiennych losowych. Jeżeli mamy dwie dowolne zmienne losowe \(\xi\) i \(\eta\), to powiemy, że są one niezależne gdy dla dowolnych zbiorów Borela \(B_1 \in X\) oraz \(B_2 \in Y\) w przestrzeni fazowej \(X\) zmiennej losowej \(\xi\) i przestrzeni fazowej \(Y\) zmiennej losowej \(\eta\) zachodzi relacja


\(P_{\xi \eta}(B_1, B_2) = Pr(\xi \in B_1, \eta \in B_2) = Pr(\xi \in B_1) Pr(\eta \in B_2) = P_{\xi}(B_1) P_{\eta}(B_2)\)


Inaczej mówiąc, zdarzenia \(\{\xi \in B_1\}\) i \(\{\eta \in B_2\}\) są niezależne i łączny rozkład prawdopodobieństwa jest iloczynem rozkładów dla poszczególnych zmiennych losowych. Jeszcze inaczej mówiąc, dwu-wymiarowy rozkład prawdopodobieństwa jest iloczynem rozkładów jedno-wymiarowych. Jeżeli jako zbiory \(B_1\) i \(B_2\) wybierzemy półproste \(B_1= (-\infty, x]\) i \(B_2= (-\infty, y]\) to dla niezależnych zmiennych losowych zachodzi

\(F_{\xi \eta}(x, y) = F_{\xi}(x) F_{\eta}(y)\)

Różniczkując to wyrażenie względem \(x\), a następnie względem \(y\) (lub odwrotnie) stwierdzamy, że

\(p_{\xi \eta}(x, y) = p_{\xi}(x) p_{\eta}(y)\)


Tak więc dla zmiennych losowych niezależnych wszelkie dwu-wymiarowe (łączne) rozkłady są iloczynem rozkładów jedno-wymiarowych (zredukowanych).

Dla wektora zmiennych losowych

\(\xi\) \(= [\xi_1, \xi_2, \xi_3, ..., \xi_n]\)

zmienne losowe są między sobą niezależne, gdy łaczny rozkład prawdopodobieństwa.

\(P_{\xi}(B_1, B_2, ..., B_n) = Pr(\xi_1 \in B_1, \xi_2 \in B_2, ..., \xi_n \in B_n) = Pr(\xi_1 \in B_1) Pr(\xi_2 \in B_2) ... Pr(\xi_n \in B_n) = P_{\xi_1}(x_1) P_{\xi_2}(x_2) ... P_{\xi_n}(x_n)\)

Podobnie łączna dystrybuanta jest iloczynem jedno-wymiarowych dystrybuant dla poszczególnych zmiennych losowych

\(F(x_1, x_2, ..., x_n) = F_{\xi_1}(x_1) F_{\xi_2}(x_2) ... F_{\xi_n}(x_n)\)

Różniczkując to wyrażenie po kolei względem \(x_1, x_2, ... x_n\) (mozna jednokrotnie różniczkować względem każdej ze zmiennych w dowolnej kolejności) stwierdzamy, że

\(p(x_1, x_2, ..., x_n) = p_{\xi_1}(x_1) p_{\xi_2}(x_2) ... p_{\xi_n}(x_n)\)

Uwaga: to nie oznacza, że teoria zmiennych losowych niezależnych upraszcza się do teorii jednej zmiennej losowej.


Dla zmiennych losowych niezależnych, funkcja charakterystyczna wektora losowego ma postać

\(C_{\xi}(\omega) = C(\omega_1, \omega_2, \dots \omega_n) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{i \sum_{k=1}^n \omega_k x_k} p(x_1, x_2, ..., x_n) \, dx_1 dx_2 \dots dx_n \)

\(= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{i \omega_1 x_1}\,e^{i \omega_2 x_2} ... \,e^{i \omega_n x_n} \, p_{\xi_1}(x_1) \,p_{\xi_2}(x_2) ... \, p_{\xi_n}(x_n) \, dx_1 \,dx_2 \dots dx_n \)

\( = \int_{-\infty}^{\infty} dx_1 e^{i \omega_1 x_1}\, p_{\xi_1}(x_1) \int_{-\infty}^{\infty} dx_2 \, e^{i \omega_2 x_2} \, p_{\xi_2}(x_2) \dots \int_{-\infty}^{\infty} dx_n e^{i \omega_n x_n}p_{\xi_n}(x_n) = C_{\xi_1}(\omega_1) C_{\xi_2}(\omega_2) \dots C_{\xi_n}(\omega_n) \)

czyli funkcja charakterystyczna wektora losowego \({\mathbf \xi}\) jest iloczynem funkcji charakterystycznych składowych \(\xi_i\) wektora losowego


                                               \(C(\omega_1, \omega_2, \dots \omega_n)  =  C_{\xi_1}(\omega_1)  C_{\xi_2}(\omega_2)  \dots C_{\xi_n}(\omega_n)   \)


Często bywa tak, że różne zmienne losowe \(\xi_i\) mają ten sam rozkład prawdopodobieństwa \(p(x) = p_{\xi_i}(x)\). Tak jest, jeżeli rzucamy n-razy monetą. Wówczas wynik i-tego rzutu nie zależy od wyniku k-tego rzutu. Mówimy wówczas o zmiennych losowych niezależnych i o identycznym rozkładzie (ang. independent and identically distributed: iid). Relacja powyższa jest często wykorzystywana i ogromne zastosowanie w różnych działach nauki i praktyki, w szczegolności jest podstawą szeregu konkluzji w statystyce.

Próby i schemat Bernoulliego

Próbą Bernoulliego nazywamy dowolne doświadczenie losowe, w którym pytam tylko o dwa możliwe wyniki, będące zdarzeniami przeciwnymi. Jeden z wyników nazywam sukcesem, drugi - porażką. Przykładów takich doświadczeń mamy tysiące. Mogą one być bardziej lub mniej rzeczywiste, część może być bardziej lub mniej losowe. Używam tu nieprecyzyjnych określeń, ale czytelnik będzie wiedział o co mi chodzi po zapoznaniu się z poniższymi przykładami.

W rzucie monetą otrzymam orła czy reszkę; w rzucie kostką otrzymam parzystą lub nieparzystą liczbę oczek; dzwonię do przyjaciela: uzyskam połączenie lub nie; strzelam do tarczy: trafię w koło zawierające co najmniej 8 lub nie; pojadę do kina autobusem: odjedzie autobus planowo (plus minus 5 minut) lub nie; czy w Będzinie 15 marca pierwsze urodzone dziecko będzie chłopcem czy nie; itd.

Nie wszystkie te przykłady są idealną próbą Bernoulliego. Ale często idealizujemy, zakładając że tak jest. Metoda idealizacji jest nagminnie stosowana (o dziwo!) w naukach ścisłych. Dla przykładu, w mechanice klasycznej badamy ruch punktu materialnego. Takim punktem materialnym może być kulka metalowa, kamień, a czasami nawet lokomotywa. Więc my też będziemy zakładali, że nasze przykłady sa idealnymi próbami Bernoulliego.


Teraz przeprowadzamy doświadczenie polegające na n-krotnym powtórzeniu ustalonej próby Bernoulliego, przy założeniu, że wynik każdej próby nie zależy od wyników prób poprzednich i nie wpływa na wyniki prób następnych. Niezależność prób polega na tym, że dowolny wynik jednej próby nie wpływa na prawdopodobieństwo pojawienia się każdego z wyników w następnej próbie. Schematem n-prób Bernoulliego nazywamy ciąg n-niezależnych powtórzeń tej samej próby Widac z powyższych przykłasdów Bernoulliego. W każdej z n prób Bernoulliego, przestrzeń probabilistyczną \(\Omega_i \; (i=1, 2, ... , n) \) rozbijamy na dwa podzbiory \(A\) i jego dopełnienie \(A'\), to znaczy p \(\Omega_i = A \cup A'\), \( A \cap A' = \empty\)


Mamy dwa zdarzenia: zdarzenie \(A\) które nazwiemy umownie sukcesem i zdarzenie \(A'\) które nazwiemy umownie porażką. Mamy pojedyńcze doświadczenie E i w wyniku tego doświadczenie możemy otrzymać albo sukces \(A\) albo porażkę \(A'\). Niech prawdopodobieństwo sukcesu wynosi \(p=p_1\) i porażki \(q=p_2\), czyli

\(P(A) = p=p_1, \; P(A') = q=p_2, \; p+q=1\)


W pojedyńczej próbie definiujemy zmienną losową \(\xi_i\) w następujący sposób:

\(\xi_i(A) = 1\)

\(\xi_i(A') = 0\)

Zauważmy, że prawdopodobieństwo tego że \(\xi_i=1\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A\), czyli

\(Pr (\xi_i = 1) = P(A) = p = p_1\)

Podobnie, prawdopodobieństwo tego że \(\xi_i=0\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A'\), czyli

\(Pr (\xi_i = 0) = P(A') = q = p_2 \)

Ponieważ zmienna losowa przyjmuje dwie wartości, więc jej dystrybuanta składa się z dwóch schodków:

\(F_{\xi_i}(x) = p \theta(x-1) + q\theta (x-0) = p_1 \theta(x-1) + p_2 \theta (x-0) \)

Pytamy, jakie jest prawdopodobieństwo tego, że w schemacie Bernoulliego o n próbach sukces otrzyma się dokładnie k razy? W schemacie n-prób Bernoulliego, ilość sukcesów jest nową zmienną losową, którą oznaczymy przez \(\eta\), Jakie wartości może przyjmować \(\eta\)? To jest to samo pytanie: ile razy mogę otrzymać orła w n rzutach monetą? Oczywiście orła mogę otrzymać 0 razy, albo 1 raz, może 2 razy albo 3 razy, 4 razy, ...., n razy. Więc matematycznie mogę to sformułować definiując zmienna losową \(\eta\) w następujący sposób:

\(\eta = \xi_1 + \xi_2 + \xi_3 + ... + \xi_n\)

Każda ze zmiennych losowych \(\xi_i = (1, 0)\), więc

\(\eta = \{0, 1, 2, ..., n\}\)

Pytanie o to jakie jest prawdopodobieństwo tego, że w schemacie Bernoulliego o n próbach otrzymamy k razy sukces jest pytaniem o to jest prawdopodobieństwo tego że zmienna losowa \(\eta = k wzór\). Odpowiedź jest znana od wieków: prawdopodobieństwo to dane jest przez rozkład dwumianowy:


\(P\{\eta = k\} = p_n(k) = {n \choose k} \cdot p^k \cdot q^{n-k} \)

Warunek unormowania ma postać

\( \sum_{k=0}^n p_n(k) = \sum_{k=0}^n {n \choose k} \cdot p^k \cdot q^{n-k} =1 \)


Ważne przykłady prób i schematów Bernoulliego


1. Rzut monetą (możliwe wyniki: orzeł-reszka) lub kostką do gry (możliwe wyniki: parzysta ilość oczek-nieparzysta ilość oczek)

W tym przypadku

\( p = q = \frac{1}{2} \)

oraz prawdopodobieństwo tego, że w n rzutach wypadnie k razy orzeł (lub parzysta liczba oczek) wynosi

\(P\{\eta = k\} = p_n(k) = \frac{1}{2^n} {n \choose k} \)


2. Losowo ktoś do mnie zadzwoni w przedziale czasowym \([0, T]\). Sukcesem nazwę zdarzenie A polegające na tym, że ktoś do mnie zadzwoni w przedziale \((t_1, t_2) \subset [0, T] \). Prawdopodobieństwo tego, że osoba ta zadzwoni akurat w przedziale \((t_1, t_2) \subset [0, T] \) wynosi

\(p = \frac{t_2 -t_1}{T}\)

Zakładam, że każda chwila czasu jest równouprawniona (co nie jest realnym założeniem, ponieważ ludzie częściej dzwonią około godziny 17 niż około godziny 3 w nocy). To, że ktoś do mnie zadzwoni w przedziale czasowym \([0, T]\) uważam za sukces, a to że nie zadzwoni - za porażkę (w życiu czasami jest odwrotnie). Tak więc

\(P(A)= p = \frac{t_2 -t_1}{T}\)

Natomiast

\(P(A')= q = 1-p = 1 - \frac{t_2 -t_1}{T}\)

Niech w przedziale \([0, T]\) będzie n-rozmów telefonicznych, które następują losowo i całkowicie niezależnie od siebie. Jest to schemat Bernoulliego. Prawdopodobieństwo tego, że k z tych wszystkich n-rozmów będzie w przedziale \((t_1, t_2) \subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).


3. Powyższy przykład, mający wiele mankamantów jak na idealny schemat Bernoulliego, można uogólnić ale przez to uczynić go bardziej abstrakcyjnym. Rozważmy przedział liczbowy \([0, T]\). Może to być przedział czasu. Z przedziału tego wybieram losowo jeden punkt, jedną liczbę. Ponieważ wszystkie liczby są "równo rozłożone", więc prawdopodobieństwo tego, że punkt ten jest w przedziale \((t_1, t_2)\subset [0, T] \) wynosi

\(P(A)= p = \frac{t_2 -t_1}{T}\)

Jeżeli wylosowany punkt jest w tym przedziale, uważam to za sukces. Wybieram teraz losowo n punktów z przedzialu \([0, T]\). Prawdopodobieństwo tego, że k z tych wszystkich n-punktów będzie w przedziale \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).

4. Substancja promieniotwórcza emituje cząstki w losowych chwilach czasu t. W przedziale czasu \([0, T]\) substancja emituje n cząstek. Moment emisji t jest zdarzeniem elementarnym \(\omega=t\) w przestrzenie probalilistycznej \(\Omega = [0, T]\). Zmienną losową jest losowa chwila czasu emisji, \(\xi(\omega) = \xi(t) = t\). Zdarzeniem A nazwę zdarzenie polegające na tym, że moment czasu t emisji cząstki bedzie w przedziale \((t_1, t_2)\subset [0, T] \). Niech prawdopodobieństwo takiego zdarzenia A wynosi

\( p = P\{ t_1 \le t \le t_2 \} = \int_{t_1}^{t_2} \alpha(s) ds\)

przy czym zakładamy, że \(\alpha(s) \ge 0 \) oraz \(\int_{0}^{T} \alpha(s) ds =1\).

Funkcja \(\alpha(t)\) charakteryzuje własności emisyjne substancji promieniotwórczej. I znowu prawdopodobieństwo tego, że k z tych wszystkich n-elektronów zostanie wyemitowanych w przedziale czasu \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).

Zauważmy, że ten przykład zawiera w sobie dwa poprzednie przykłady. Aby to pokazać, wybierzmy postać funkcji \(\alpha(t)=1/T\) dla wszystkich \(t\in [0, T]\). Wówczas

\( p = \int_{t_1}^{t_2} \alpha(s) ds = \int_{t_1}^{t_2} \frac{1}{T} ds = \frac{1}{T} \int_{t_1}^{t_2} ds = \frac{t_2 -t_1}{T}\)

W tym przypadku mówimy o jednostajnym rozkładzie chwil emisji (punktów, liczb). Substancje radioaktywne nie emitują jednostajnie cząstek: liczba emitowanych cząstek maleje wraz z upływem czasu. Gdybyśmy dostarczali bez przerwy żródła emisji, to można by przybliżać taki proces przez jednostajną emisję. Ale dla przykładu emisja cząstek w lampach elektronowych jest w przybliżeniu jednostajna.


5. O schemacie Bernoulliego można mówić we wszelkiego typu procesach urodzin. Proces emisji też może byc traktowany jako proces urodzin (rodzą się cząstki). Jeżeli coś się pojawia losowo i z czasem przybywa tego to jest to proces urodzin.

Niech w przedziale czasu \( [0, T] \) rodzi sie n dzieci. Pawdopodobieństwo tego, że jedno dziecko urodzi się w przedziale \((t_1, t_2)\subset [0, T] \) wynosi

\(P(A)= p = \frac{t_2 -t_1}{T}\)


I znowu prawdopodobieństwo tego, że k z tych wszystkich n-dzieci urodzi sie w przedziale \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).


Uogólniony schemat Bernoulliego

Z powyższych przykładów widać, że rozkład dwumianowy pojawia się wszędzie tam, gdzie mamy powtarzające się zjawiska, niezależne od siebie. Zamiast rozbicia zbioru \(\Omega\) na dwa podzbiory i rozważać dwa zdarzenia: sukces-porażka, możemy rozbić zbiór \(\Omega\) na kilka podzbiorów i rozważać kilka zdarzeń. Wówczas otrzymujemy uogólniony schemat Bernoulliego. Dla przykładu rozpatrzymy przypadek trzech podzbiorów. Niech w jednym doświadczeniu ( tu w i-tym doświadczeniu)

\(\Omega_i = A_1 \cup A_2 \cup A_3 \; \; \; \; \; \; \; A_i \cap A_j = \empty \; \; (i\ne j), \; \; \; \; \; i, j =1, 2, 3\)

Niech

\(P(A_i) = p_i, \; \; \; \; \; \; \; \; p_1+p_2+p_3=1\)


Powtarzamy doświadczenie n-razy w sposób niezależny, to znaczy zakładamy, że wynik każdej próby nie zależy od wyników prób poprzednich i nie wpływa na wyniki prób następnych. Prawdopodobieństwo tego, że w n-próbach, zdarzenie \(A_1\) pojawi sie \(k_1\)-razy, zdarzenie \(A_2\) pojawi sie \(k_2\)-razy (a stąd zdarzenie \(A_3\) pojawi sie \(k_3\)-razy) wynosi

\( p_n(k_1, k_2, k_3 ) = \frac{n!}{k_1! \, k_2! \, k_3!} \, p_1^{k_1} \cdot p_2^{k_2} \cdot p_3^{k_3} \; \)

przy czym

\(p_1 + p_2 + p_3 = 1, \; \; \; \; \; \; k_1 + k_2 + k_3 = n \; \)


Widać teraz, jak łatwo można uogólnić te formuły na przypadek dowolnej liczby zdarzeń \(A_k\) tak aby


\(\Omega_i = A_1 \cup A_2 \dots \cup A_s \; \; \; \; \; \; \; A_i \cap A_j = \empty \; \;(i\ne j), \; \; \; \; \; i, j =1, 2, \dots , s\)

Twierdzenie Poissona i rozkład Poissona

Trzy ostatnie schematy Bernoulliego są podobne. Przykład pierwszy jest inny. Gdzie tkwi ta odmienność. W trzech ostatnich schematach Bernoulliego prawdopodobieństwo p może być łatwo zmieniane poprzez zmianę końców przedziału \((t_1, t_2)\) lub też przez zmianę T. W pierwszym schemacie prawdopodobieństwo p = (1/2) jest "sztywne", nie mozna go zmieniać (abstrahuje tu od zmiany p poprzez fałszowanie monet lub kostek do gry). Rozpatrzymy jeden z granicznych przypadków dla rozkładu dwumianowego.

Twierdzenie Poissona :

Niech

\(n \to \infty\) oraz \(p \to 0\) w taki sposób, aby \(n \cdot p = \lambda = const. \)

Wówczas rozkład dwumianowy dąży do rozkładu

\(\lim_{n \to \infty\ p \to 0} p_n(k) = p(k) = \lim_{n \to \infty\ p \to 0} {n \choose k}p^k (1-p)^{n-k} = e^{-\lambda} \; \frac{\lambda ^k}{k!}\)


Dowód: Ponieważ \(n \cdot p = \lambda \), stąd \(p = \lambda/n \). Wstawimy to do rozkładu dwumianowego.

(4)\(p^k q^{n-k} = p^k (1-p)^{n-k} = \left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k} = \left(\frac{\lambda}{n}\right)^k \frac{\left(1-\frac{\lambda}{n}\right)^{n}}{\left(1-\frac{\lambda}{n}\right)^{k}}\)

Zauważmy, że

\(\lim_{n\to\infty} \left(1 - \frac{\lambda}{n}\right)^n = e^{-\lambda} \; \; \)

oraz

\(\lim_{n\to\infty} \left(1 - \frac{\lambda}{n}\right)^k = 1 \)


Czynnik kombinatoryczny

\({n \choose k} = \frac{n!}{k!(n-k)!} = \frac{1\cdot 2 \cdot 3 \dots (n-k-1) (n-k) (n-k+1) (n-k+2)\dots (n-2) (n-1) n }{k! \; 1 \cdot 2 \cdot 3 \dots (n-k-1)(n-k)}\)


\( = \frac{1}{k!} (n-k+1) (n-k+2) \dots (n-2) (n-1) n = \frac{n^k}{k!} \left( 1- \frac{k-1}{n}\right) \left( 1- \frac{k-2}{n}\right) \dots \left( 1- \frac{2}{n}\right) \left( 1- \frac{1}{n}\right) \)


Wszystkie wyrażenia w nawiasach dążą do 1 gdy \(n \to \infty\). Wyrażenie w liczniku \(n^k\) uprości się z takim samym wyrażeniem w mianowniku Równania (4). W resultacie otrzymujemy tezę twierdzenia, czyli rozkład który nazywa się rozkładem Poissona o parametrze \(\lambda\):


                                                \( Pr\{\eta = k\} = p(k) =  e^{-\lambda} \; \frac{\lambda ^k}{k!}\)

Zmienna losowa o rozkładzie dwumianowym w schemacie Bernoulliego przyjmowała wartości \(\eta = \{0, 1, 2, ..., n\}\). Ponieważ teraz \(n \to \infty\), więc zmienna losowa o rozkładzie Poissona przyjmuje wartości liczb całkowitych nieujemnych, to znaczy

\(\eta = \{0, 1, 2, 3, ...\} = \{k\}_{k=0}^{\infty} \)


W tym przejściu granicznym żądamy, aby prawdopodobieństwa p(A) pojedyńczego zdarzenia A dążyło do zera. Nie jest to możliwe dla rzutu monetą czy kostką. Ale jest to możliwe w pozostałych zaprezentowanych przykładach.

1. Procesy urodzin (rozmowy telefoniczne, punkty na odcinku)

Rozpatrywaliśmy przedział czasu (\([0, T]\)liczbowy) i prawdopodobieństwo

\(p = \frac{t_2 - t_1}{T}\)

Niech \(n \to \infty\) oraz \(T \to \infty\) w taki sposób aby \(\frac{n}{T} = \mu = const. \). Oznacza to, że przedział \([0, T]\) staje się półprostą \([0, \infty)\), ilość punktów w przedziale nieskończonym jest nieskończona (\(n=\infty\)), ale gęstość punktów (ilość punktów w jednostkowym przedziale) jest stała, ta sama, niezależna od tego gdzie przedział jednostkowy jest położony. Można mówić o jednorodnym rozkładzie punktów na półprostej. W sensie matematycznym, oś liczbowa spełnia to założenie, ale na przykład dla rozmów telefonicznych tak nie jest. Są takie okresy czasowe (dnia, roku) kiedy częściej dzwonimy i do nas dzwonią.

Wykorzystajmy definicję parametru \(\lambda = n\cdot p\) w rozkładzie Poissona:

\(\lambda = n \cdot p = n \; \frac{t_2 - t_1}{T} = \frac{n}{N} (t_2 - t_1) = \mu (t_2 - t_1)\)


W odniesieniu do tych (ważnych) przykładów otrzymujemy następującą interpretację rozkładu Poissona: prawdopodobieństwa tego, że k punktów jest w przedziale czasowym \((t_1, t_2)\) określone jest przez wzór

(5)\( Pr\{k \; \mbox{punktow w przedziale} \; (t_1, t_2)\} = e^{-\mu (t_2 - t_1)} \; \frac{[\mu (t_2 - t_1)]^k}{k!}\)

Jeżeli gęstość punktów nie jest stała, wówczas należy dokonać zamiany

(6)\(\lambda = \mu (t_2 - t_1) \to \lambda = \int_{t_1}^{t_2} \mu(s) ds\)

gdzie funkcja \(\mu(t) \ge 0\) charakteryzuje (niejednorodny) rozkład punktów na osi liczbowej. W takim przypadku mówimy o zmiennej losowej o niejednorodnym rozkładzie Poissona. Przykładem może być losowy proces emisji cząstek ze źródła scharakteryzowanego przez funkcję \(\mu(t)\). Wówczas prawdopodobieństwa tego, że k cząstek zostanie wyemitowanych w przedziale czasowym \((t_1, t_2)\) określone jest przez rozkład Poissona o parametrze \(\lambda\) danym przez powyższą całkę w Równaniu (6).

Procesy stochastyczne

Nim podamy formalną definicję procesu stochastycznego, rozważmy przykład który przybliży nam to pojęcie.

Przykład

Cząstka Browna wykonuje ruch losowy. Można sobie wyobrazić, że przeprowadzamy doświadczenie z kolorową cząstką Browna w wodzie i śledzimy jej ruch w przestrzeni. Analizujemy ruch tylko w jednym kierunku poziomym, który oznaczymy jako oś X (rzutujemy ruch trójwymiarowy na jedną oś). Przedstawimy jednowymiarowy ruch takiej cząstki na wykresie. Oś pionowa przedstawia położenie cząstki, oś pozioma - czas. Położenie cząstki w chwili t oznaczymy jako \(\xi(t)\). Możemy tego typu doświadczenie powtarzać wielokrotnie (teoretycznie: nieskończenie wiele razy). W kolejnych doświadczeniach w chwili \(t=0\) cząstka może znajdować się w tym samym miejscu lub nie, to nie ma większego znaczenia. Załóżmy, że znajduje się w tym samym miejscu, nazwanym umownie \(x=0\), czyli warunek początkowy możemy zapisać w postaci \(\xi(0)=0\). Na rysunku przedstawione są wyniki czterech doświadczeń. Przedstawiamy cztery trajektorie cząstki Browna. W kolejnych doświadczeniach otrzymujemy inną trajektorię czastki. Gdybyśmy przeprowadzali coraz to więcej doświadczeń, trajektorie pokrywały by coraz to większą część płaszczyzny.

Chcemy zbadać własności wyników opisanego powyżej eksperymentu, w szczególności własności ruch cząstki Browna w określonym przedziale czasowym \((0, T], \; T > 0\). Przedstawione na rysunku cztery trajektorie to możliwe realizacje tego procesu. Ustalmy chwilę czasu, np. \(t=5\). Linia pionowa \(t=5\) na rysunku przecina trajektorie w czterech punktach. Te cztery punkty \(\xi(t=5)\) można potraktować jako możliwe wartości zmiennej losowej, którą oznaczymy \(\xi_5\). Jeżeli mamy tysiące takich trajektorii, to można standardowymi metodami statystyki obliczyc wartość średnią zmiennej losowej \(\xi_5\), jej wariancję, momenty statystyczne wyższego rzędu, itd. Możemy wybrać inną chwilę czasu, np. \(t=8\). Otrzymamy inną zmienną losową, którą 5.< oznaczymy \(\xi_8\). Możemy tak samo jak dla zmiennej losowej \(\xi_5 \) obliczyć charakterystyki probabilistyczne zmiennej losowej \(\xi_8 \). Możemy wybrać każdą inną chwilę czasu \(t=t_k\) otrzymując zmienną losową \(\xi_k\). Czytelnik domyśla się, że otrzymamy coś, co poprzednio nazwaliśmy wektorem losowym

(7)\({\mathbf \xi} =\{\xi_k, k\in (0, T]\}\)

Ale wektor ten ma nieskończenie wiele składowych, ponieważ czas \(t\) zmienia się w sposób ciągły i wskażnik \(k\) przyjmuje nieskończenie wiele wartości w przedziale \((0, T], \; T > 0\). Zagadnienie staje się wyjątkowo skomplikowane, ponieważ musimy badać wektor losowy o nieskończenie wielu składowych. Z rozdziału 4.8 wiemy, że aby taki wektor losowy w pełni scharakteryzować, powinniśmy wyznaczyć jego rozkłady prawdopodobieństwa


\(P_[[:Szablon:\mathbf \xi]](B_1, B_2, ..., B_n) = Pr(\xi_1 \in B_1, \xi_2 \in B_2, \ ..., \xi_n \in B_n) = P(\{\omega: \xi_1(\omega) \in B_1, \xi_2(\omega) \in B_2, \ ..., \xi_n(\omega) \in B_n)\)

lub dystrybuanty

\(F(x_1, x_2, ..., x_n) = Pr(\xi_1 \le x_1, \xi_2 \le x_2, ..., \xi_n \le x_n) \)

lub gęstości rozkładu prawdopodobieństwa

\( p(x_1, x_2, ..., x_n) = \frac{ \partial^n F(x_1, x_2, ..., x_n)}{\partial x_1 \partial x_2 ... \partial x_n} \)

Ale teraz n może zmieniać się od \(n=1\) to nieskończoności, \(n = 1, 2, 3, \dots \).

Zapis w Równaniu (7) oznacza zbór możliwych położeń cząstki Browna w różnych chwilach czasu indeksowanego przez wskaźnik \(k\). Bardziej precyzyjny zapis ma formę


(8)\({\mathbf \xi} =\{\xi(\omega, t), t \in (0, T]\}\)

Jest to przykład procesu stochastycznego. Należy uwypuklić dwa elementy tego procesu:

(1) dla ustalonej chwili czasu \(t=t_k\), wielkość \(\xi(\omega, t_k) = \xi_k(\omega)\) jest zmienna losową, czyli są to możliwe położenia cząstki w tej samej chwili czasu ale dla wielu doświadczeń, czyli różnych \(\omega \in \Omega\); wielkości \(\xi(\omega_1, 5), \; \xi(\omega_2, 5), \; \xi(\omega_3, 5), \; \xi(\omega_4, 5)\) to położenia cząstki w chwili \(t=5\) dla doświadczenia pierwszego, drugiego, trzeciego i czwartego.

(2) jedna trajektoria cząstki to jedna realizacja procesu stochastycznego, to znaczy jest to funkcja czasu dla ustalonego \(\omega \in \Omega\), czyli \(\xi(\omega_1, t)\) są to możliwe położenia cząstki dla pierwszego doświadczenia \((\omega = \omega_1)\) ale różnych chwil czasu.

Różne doświadczenia są indeksoweane przez \(\omega \in \Omega\), różne chwile czasu - przez \(t \in(0, T]\). W ogólności położenie jest indeksowane przez oba wskaźniki czyli \(\xi = \xi(\omega, t)\). Często opuszczany jest wskaźnik \(\omega\) (zwłaszcza przez nie-matematyków) i używa się uproszczonej notacji \(\xi(t)\). Po tym przykładzie możemy podać formalną definicję procesu stochastycznego.

DEFINICJA

Niech \((\Omega, \mathcal F, P)\) będzie przestrzenia probabilistyczną, \({\mathcal T}\) - zbiorem liczb rzeczywistych lub podzbiorem tego zbioru. Zbiór \({\mathcal T}\) będziemy interpretowali jako czas. Przez \(t\) oznaczymy element zbioru \({\mathcal T}\). Niech \((X, \mathcal B)\) będzie przestrzenia fazową. Funkcję

\(\xi: \Omega \times {\mathcal T} \to X\)

nazywamy procesem stochastycznym jeżeli dla każdego \(t\) oraz dla każdej liczby rzeczywistej \(x\) zbiór

\(\{\omega: \xi(\omega, t) \le x\} \in \mathcal F\)

jest zdarzeniem w przestrzeni probabilistycznej \(\Omega\).

Funkcja \(\xi = \xi(\omega, t) \) jest funkcją dwóch zmiennych: \(\omega\) oraz \(t\). Dla każdego ustalonego \(t\) funkcja \(\xi = \xi(\omega, t) \) rozważana jako funkcja argumentu \(\omega\) jest zmienną losową. Dla ustalonego zdarzenia elementarnego \(\omega\) funkcja ta nie jest losowa i nazywa sie realizacją procesu stochastycznego. Zatem proces stochastyczny można traktować jako rodzinę zmiennych losowych indeksowanych "czasem" \(t \in\mathcal T\) albo rodzinę realizacji zależną od parametru \(\omega \in \Omega\) .


UWAGI

1. Często przestrzeń fazową \(X\) nazywa sie przestrzenią stanów. Jeżeli \(\xi(\omega, t) =x\) mówimy, że układ jest w stanie \(x\in X\).

2. Jeżeli \(X\) jest zbiorem liczb rzeczywistych i \(\xi(\omega, t)\) może przyjmować dowolne wartości z tego zbioru, to proces stochastyczny nazywamy typu ciągłego (przez analogię do zmiennej losowej ciągłej).

3. Jeżeli \(X\) jest zbiorem liczb całkowitych lub naturalnych i \(\xi(\omega, t)\) przyjmuje wartości z tego zbioru, to proces stochastyczny nazywamy typu dyskretnego (przez analogię do zmiennej losowej dyskretnej).

4. Jeżeli "czas" jest dyskretny (indeksowany przez liczby całkowite lub naturalne) oraz \(X=R\), to proces stochastyczny nazywamy ciągiem losowym.

5. Jeżeli "czas" jest dyskretny (indeksowany przez liczby całkowite lub naturalne) oraz \(X\) jest zbiorem liczb całkowitych lub naturalnych, to proces stochastyczny nazywamy łańcuchem losowym.



Charakterystyki procesu stochastycznego

Analizując ruch Browna ja przykład procesu stochastycznego zauważyliśmy, że ten proces jest zbiorem nieskończenie wielu zmiennych losowych. Pamiętamy, że dla \(n\)-zmiennych losowych powinniśmy wyznaczyć łączny rozkład prawdopodobieństwa, czyli \(n\)-wymiarowy rozkład. W przypadku zbioru nieskończenie wielu zmienny losowych nie możemy oczekiwać, że określimy nieskończenie wymiarowy rozkład prawdopodobieństwa. Możemy starać się wyznaczyć rozkłady skończenie wymiarowe. Z praktycznego punktu widzenia, kilku-wymiarowe rozkłady są wystarczające. I tak zdefiniujemy rozklad jednowymiarowy procesu stochastycznego \(\xi(t)\):



CHARAKTERYSTYKI JEDNO-WYMIAROWE

1. Jednowymiarowa dystrybuanta

\(F(x, t) = Pr\{\xi(t) \le x\}\)

2. Jednowymiarowa gęstośc prawdopodobieństwa

\(p(x, t) = \frac{\partial F(x, t)}{\partial x}\)

3. prawdopodobieństwo tego, że w chwili \(t\) proces \(\xi(t)\) przyjmuje wartości z przedziału \((x_1, x_2]\) wynosi

\(Pr\{x_1 < \xi(t) \le x_2\} = Pr\{ \xi(t) \in (x_1, x_2]\} = \int_{x_1}^{x_2} p(x, t) \; dx\)

4. Warunek unormowania

\(\int_{-\infty}^{\infty} p(x, t) \; dx = 1 \)

5. Wartość średnia procesu \(\xi(t)\) w chwili \(t\) wynosi

\(m(t) = \langle \xi(t)\rangle = \int_{-\infty}^{\infty} x\; p(x, t) \; dx \)

6. Moment statystyczny k-tego rzędu procesu \(\xi(t)\) w chwili \(t\) wynosi

\(\langle \xi^k(t)\rangle = \int_{-\infty}^{\infty} x^k \; p(x, t) \; dx \)

7. Fluktuacje procesu \(\xi(t)\) w chwili \(t\)

\(\sigma^2(t) = \langle [\xi(t) - m(t)]^2\rangle = \langle [\xi(t) - \langle \xi(t)\rangle]^2\rangle = \langle \xi^2(t)\rangle - \langle \xi(t)\rangle^2 \)


8. Wartość średnia dowolnej funkcji \(g(\xi(t)) \) procesu \(\xi(t)\) w chwili \(t\) wynosi

\(\langle g(\xi(t)) \rangle = \int_{-\infty}^{\infty} g(x) \; p(x, t) \; dx \)

9. Jedno-wymiarowa funkcja charakterystyczna

\(C(\omega, t) = \langle e^{i\omega \xi(t)} \rangle = \int_{-\infty}^{\infty} e^{i\omega x} \; p(x, t) \; dx \)


Uwaga: tutaj \(\omega \in R\) jest dowolną liczbą rzeczywistą i nie ma nic wspólnego ze zdarzeniem elementarnym \(\omega \in \Omega\). Ponieważ historycznie zakorzeniło się oznaczenie dla funkcji charakterystycznej z argumentem \(\omega\), więc mamy jeszcze jeden powóod, aby używać uproszczonego zapisu \(\xi(\omega, t) = \xi(t)\) dla procesów stochastycznych.


CHARAKTERYSTYKI DWU-WYMIAROWE


1. Dwuwymiarowa dystrybuanta

\(F(x_2, t_2; x_1, t_1) = Pr\{\xi(t_2) \le x_2; \xi(t_1) \le x_1\}\)

2. dwuwymiarowa gęstośc prawdopodobieństwa

\(p(x_2, t_2; x_1, t_1) = \frac{\partial^2 F(x_2, t_2; x_1, t_1)}{\partial x_2 \partial x_1}\)

3. prawdopodobieństwo tego, że w chwili \(t_2\) proces \(\xi(t)\) przyjmuje wartości z przedziału \((a, b]\) oraz w chwili \(t_1\) proces \(\xi(t)\) przyjmuje wartości z przedziału \((c, d]\) wynosi

\(Pr\{a < \xi(t_2) \le b; c < \xi(t_1) \le d\} = Pr\{ \xi(t_2) \in (a, b]; \xi(t_1) \in (c,d] \)

\( =\int_{a}^{b} \int_{c}^{d} p(x_2, t_2; x_1, t_1) \; dx_2 \; dx_1 =\int_{a}^{b} dx_2 \int_{c}^{d} dx_1 \; p(x_2, t_2; x_1, t_1) \)


UWAGA: Czasami będziemy używali zapisu jak powyżej, aby uwidocznić w jakich granicach całkujemy po jakich zmiennych.

4. Warunek unormowania


\(\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x_2, t_2; x_1, t_1) dx_2 \; dx_1= 1 \)


5. Funkcja korelacji (funkcja korelacyjna) procesu stochastycznego


\(R(t_2, t_1) =\langle \xi(t_2)\xi(t_1)\rangle = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \; x_2 \; x_1 \;p(x_2, t_2; x_1, t_1)\; dx_2\; dx_1 \)

Jeżeli

\(R(t_2, t_1) =\langle \xi(t_2)\xi(t_1)\rangle = \langle \xi(t_2)\rangle \; \langle\xi(t_1)\rangle \; \;\ \; dla \; \;\ t_2 \ne t_1\)

to proces nazywamy nieskorelowanym.

6. Funkcja kowariancji (kowariancja) procesu stochastycznego


\(C(t_2, t_1) =\langle [\xi(t_2) - m(t_2)][\xi(t_1) -m(t_1)]\rangle = \langle \xi(t_2)\xi(t_1)\rangle -m(t_2) m(t_1) = R(t_2, t_1)-m(t_2) m(t_1) \)


7. Wartość średnia dowolnej funkcji \(g \left(\xi(t_2, \xi(t_1)\right) \) procesu w różnych chwilach czasowych


\(\langle g(\xi(t_2), \xi(t_1) ) \rangle = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x_2, x_1) \;p(x_2, t_2; x_1, t_1)\; dx_2\; dx_1 \)


8. Dwu-wymiarowa funkcja charakterystyczna


\(C(\omega_2, t_2; \omega_1, t_1) = \langle e^{i[\omega_1 \xi(t_1) + \omega_2 \xi(t_2)]} \rangle = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{i(\omega_1 x_1 + \omega_2 x_2)} \;p(x_2, t_2; x_1, t_1)\; dx_2\; dx_1 \)


Oczywiście jeżeli ktoś woli pisać wskaźniki (2, 1) w odwrotnej kolejności (1, 2) to nie jest to zabronione, ale czasami ich uporządkowanie jest ważne, tak jak np. w punkcie 6.


Dodatkowe definicje


1. Przyrosty procesy stochastycznego \(\xi(t)\)


\(\Delta \xi(t_i) = \xi(t_i + \Delta t) - \xi(t_i) \,\)


\( d\xi(t) = \xi(t + dt) - \xi(t) \,\)


2. Proces stochastyczny \(\xi(t)\) nazywamy procesem o przyrostach niezależnych jeżeli dla dowolnych nieprzekrywających się przedziałów

\(t_0 < t_1 < \dots < t_n\)

zmienne losowe

\(\xi(t_0), \; \xi(t_1)-\xi(t_0), \; \xi(t_2)- \xi(t_1), \; \dots, \; \xi(t_n) - \xi(t_{n-1})\)

są niezależne.

Udowodnienie, że dany proces stochastyczny ma przyrosty niezależne jest często trudnym problemem. Czasami intuicyjne rozważania są pomocne w tej kwestii.

3. Procesy stacjonarne

(a) stacjonarność w węższym sensie

Jeżeli proces \(\xi(t)\) oraz proces \(\xi(t+\epsilon) \) mają te same n-wymiarowe rozkłady prawdopodobieństwa


\(p(x_n, t_n; \;x_{n-1}, t_{n-1}; \dots ; x_2, t_2; \;x_1, t_1) = p(x_n, t_n +\epsilon; \;x_{n-1}, t_{n-1}+\epsilon; \dots ; x_2, t_2+\epsilon; \;x_1, t_1+\epsilon)\)


dla dowolnego \(n\) i dowolnego \(\epsilon\).

W szczególności zachodzi


dla n=1:

\(p(x, t) = p(x, t+\epsilon)\;\)

Stąd wynika że 1-wymiarowa gęstość prawdopodobieństwa \(p(x, t) = p(x)\) nie zależy od czasu oraz wartość średnia procesu \(m(t)=\langle \xi(y) \rangle = m \;\) nie zależy od czasu.


dla n=2:

\(p(x_2, t_2; x_1, t_1) = p(x_2, t_2+\epsilon; x_1, t_1+\epsilon)\;\)


Stąd wynika że 2-wymiarowa gęstość prawdopodobieństwa

\(p(x_2, t_2; x_1, t_1)= p(x_2, x_1; t_2- t_1)\;\)

zależy od różnicy czasów \(t_2\) i \(t_1\). To z kolei implikuje że funkcja korelacji

\(R(t_2, t_1) =\langle \xi(t_2)\xi(t_1)\rangle = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \; x_2 \; x_1 \;p(x_2, x_1; t_2- t_1)\; dx_2\; dx_1 = R(t_2 -t_1) \)

oraz


\(\langle \xi(t + \tau)\xi(t)\rangle = R(\tau)\)


(b) stacjonarność w szerszym sensie

Jeżeli wartość średnia procesu

                                 \(m(t)=\langle \xi(y) \rangle = m \) 

nie zależy od czasu oraz funkcja korelacji


                                 \(\langle \xi(t + \tau)\xi(t)\rangle = R(\tau)\) 

zależy od różnicy czasów \(t+ \tau\) i \(t\), wówczas proces stochastyczny \(\xi(t)\) nazywamy stacjonarnym w szerszym sensie. Oczywiście jeżeli \(\xi(t)\) jest stacjonarny w węższym sensie to jest także stacjonarny w szerszym sensie. Odwrotnie nie musi zachodzić.


4. Spektrum (widmo) mocy stacjonarnego procesu stochastycznego


                                 \(S(\omega)  =  \int_{-\infty}^{\infty} e^{i\omega \tau}  \; R(\tau) \; d\tau  \)


Jest to transformata Fouriera funkcji korelacyjnej. Dla procesów niestacjonarnych pojęcie to nie jest dobrze zdefiniowane.

Z optyki wiemy, że kolor światła zależy od częstości promieniowania elektromagnetycznego. Kolor zielony czy fioletowy mają różne widma, ale krzywe widmowe zwykle są rozmyte i mają maksima w otoczeniu częstości odpowiadającej kolorowi zielonemu czy fioletowemu. Widmo światła białego nie ma wyróżnionych częstości. Inaczej mówiąc widmo to nie zależy od częstości. Przez analogię, proces stochastyczny którego widmo mocy nie zależy od częstości nazywamy białym szumem. Z powyższego wzoru można wnioskować, że jeżeli funkcja korelacyjna ma postać


\(\langle \xi(t + \tau)\xi(t)\rangle = R(\tau)= D \delta(\tau)\)


gdzie \(\delta(\tau)\) jest deltą Diraca, to widmo mocy nie zależy od częstości. Jeżeli wartośc średnia \(m(t) = m \) stacjonarnego procesu stochastycznego nie zeruje się, to zamiast funkcji korelacyjnej stosuje sie funkcję kowariancji i wówczas


\( C(t_2, t_1)= C(t_2, t_1) =\langle [\xi(t_2)-m][\xi(t_1)-m]\rangle = D \delta(t_2- t_1)\)

Z własności delty Diraca wiemy, że jeżeli \(t_2\ne t_1\) to \(\delta(t_2- t_1) =0\) czyli

\(C(t_2, t_1) = \langle \xi(t_2)\xi(t_1)\rangle -m^2 = \langle \xi(t_2)\xi(t_1)\rangle - \langle \xi(t_2)\rangle \; \langle\xi(t_1)\rangle =0 \; \; dla \; \; t_2\ne t_1\)

czyli

\(\langle \xi(t_2)\xi(t_1)\rangle = \langle \xi(t_2)\rangle \; \langle\xi(t_1)\rangle \; \; dla \; \; t_2\ne t_1\)


Stąd wnioskujemy, że biały szum jest nieskorelowanym procesem stochastycznym. Czasami mówi się, że jest to \(\delta\)-skorelowany szum. Nie oznacza to, że funkcja kowariancji każdego nieskorelowanego procesu jest dana przez deltę Diraca.

Procesy Poissona

Proces urodzin

W rozdziale 5 podaliśmy kilka przykładów schematu Bernoulliego. Przypomnijmy przykład 3:

Rozważamy przedział liczbowy \([0, T]\). Z przedziału tego wybieram losowo jeden punkt, jedną liczbę. Ponieważ wszystkie liczby są "równo rozłożone", więc prawdopodobieństwo tego, że punkt ten jest w przedziale \((t_1, t_2)\subset [0, T] \) wynosi

\(P(A)= p = \frac{t_2 -t_1}{T}\)

Jeżeli wylosowany punkt jest w tym przedziale, uważam to za sukces. Wybieram teraz losowo n punktów z przedzialu \([0, T]\). Prawdopodobieństwo tego, że k z tych wszystkich n-punktów będzie w przedziale \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\). Jeżeli przedział \([0, T]\) będzie przedziałem czasowym, to w przedziale tym mam n losowych chwil czasu oraz \(k \le n\) losowych chwil czasu w przedziale \((t_1, t_2)\subset [0, T] \). Teraz dokonuję takiego samego przejścia granicznego jak w twierdzeniu Poissona

\(n \to \infty, \;\;\; p \to 0 \;\;\;\; \mbox{ale} \;\;n\cdot p = \lambda \)

co udaje mi się osiągnąć gdy założę że \(T \to \infty\) przy czym

\(\mu = \frac{n}{T}\)

jest jest stałą wielkością i oznacza ilość losowych punktów w jednostkowym przedziale, czyli gęstość losowo wybranych punktów na osi czasu. Przy takim skalowaniu otrzymam wyrażenie na parametr

\(\lambda = \mu (t_2 -t_1) \;\)

Przypiszmy teraz każdej losowej chwili czasu akt narodzin dziecka. Prawdopodobieństwo tego że w przedziale \((t_1, t_2) \) jest k-punktów odpowiada prawdopodobieństwu tego że w przedziale czasu \((t_1, t_2) \) urodziło się k dzieci. W ten sposób otrzymujemy losowy proces urodzin. Elementem losowym jest czas narodzin. Wynikiem jest liczba dzieci \(N(t) \) w pewnej chwili czasu \(t\). Rozkład prawdopodobieństwa jest dany przez rozklad Poissona:

(9)\( Pr\{k \; \mbox{dzieci urodzonych w przedziale} \; (t_1, t_2)\} = Pr\{N(t_2) - N(t_1) =k\} = e^{-\mu (t_2 - t_1)} \; \frac{[\mu (t_2 - t_1)]^k}{k!}\)

Przyjmijmy teraz, że \(t_1 = 0\) i \(t_2 =t\). Wówczas \(t_2 - t_1 =t-0=t\) oraz


(10)\( Pr\{k \; \mbox{dzieci urodzonych w przedziale} \; (0, t)\} = Pr\{N(t) = \} =e^{-\mu t} \; \frac{(\mu t)^k}{k!}\)

jest prawdopodobieństwem tego, że w przedziale czasu \((0, t)\) urodziło się k dzieci. Jeżeli liczbę urodzonych dzieci oznaczymy przez \(N(t)\) to otrzymamy proces stochastyczny nazywany procesem urodzin. Przyjmiemy, że \(N(0) = 0\). Oczywiście nie jest to bezwzględny wymóg, ale konwencja. Równie dobrze mógłbym badać dowolny inny stan początkowy \(N(0)\). Na Rysunku pokazano kilka realizacji tego procesu. Realizacje są funkcjami schodkowymi o skoku 1, przy czym skok następuje w losowych chwilach czasu \(t_i\) przy czym zakładamy, że tylko jeden osobnik rodzi sie daneym momencie czasu \(t_i\). Funkcje schodkowe można zapisać przy pomocy funkcji teta Heaviside'a, więc proces urodzin \(N(t)\) można zapisac w postaci

\(N(t) = \sum_{i=1}^{\infty} \theta(t-t_i)\)

Aby otrzymać jedną realizację procesu urodzin w przedziale czasu \([0, T]\), należy losowo wybrać w tym przedziale punkty \(t_i\) które są momentami urodzenia.

Proces urodzin i śmierci

Poissonowski ciąg impulsów: biały szum Poissona

Uogólnienia procesu Poissona

Równania ewolucji dla procesów Poissona; funkcja tworząca

Błądzenie przypadkowe

Proces Wienera -proces dyfuzji

Biały szum gaussowski

Procesy Levy'ego

Stochastyczne równania różniczkowe

Równanie Kramersa-Moyala

Proste i odwrotne równanie Kołmogorowa. Równanie Fokkera-Plancka

Równanie Ito a proces dyfuzji

Równanie Ito i równanie Stratonowicza

Twierdzenie Ito o różniczce funkcji procesu stochastycznego

Przykłady zastosowań równań stochastycznych w ekonomii

Geometryczny proces Wienera

Dodatek matematyczny

1. Elementy teorii dystrybucji: delta Diraca, funkcja schodkowa i jej pochodna , różniczkowanie funkcji nieciągłej


2. Podstawowe tw. w teorii całki Riemanna , różniczkowanie całki wz. górnej granicy całkowania


3. Transformacja Fouriera


4.