Procesy i Zjawiska Losowe

Z Skrypty dla studentów Ekonofizyki UPGOW

Jerzy Łuczka

PROCESY I ZJAWISKA LOSOWE

Skrypt dla studentów ekonofizyki


Spis treści

Wstęp

Tak się pisze fajne wzory, jakie się pokażą na wykładzie z pedagogiki niekonwencjonalnej (np. jak ci przypier... to się gnoju uspokoisz i dasz tatusiowi spokó jak tatuś czyta gazetę)

\(\iiint{}U_{H}=\frac{IB}{hnq}\not=R_{H}\cdot\frac{IB}{h^{e\cos}} h ^\sin _7 \not=\sum_{n=\infty}^k{A\over{({b\over z}+q)}W}v\Omega \pi\)

Wielki sukces fizyki, a ogólniej mówiąc nauk przyrodniczych, polega na tym, że jej odkrycia przyczyniły się do rozwoju cywilizacyjnego naszej planety. Sukces ten jest związany z tym, że podstawowe równania fizyki opisujące dynamikę układów cechuje własność determinizmu. Co to oznacza? Ogólnie mówiąc oznacza to możliwość przewidywania i to jednoznacznego przewidywania. Jest to konsekwencją twierdzeń matematycznych o jednoznaczności rozwiązań równań różniczkowych. Na tym opiera się determinizm mechaniki klasycznej i elektrodynamiki. Determinizm mechaniki kwantowej należy nieco inaczej interpretować. Niezależnie od interpretacji, zarówno przewidywania mechaniki kwantowej jak i kwantowej teorii cząstek elementarnych znakomicie potwierdzone są przez liczne doświadczenia. My możemy przewidzieć tor cząstki, określić precyzyjnie ruch rakiety, generować fale elektromagnetyczne o określonej długości, wyznaczyć różnice między poziomami energetycznymi w atomie wodoru, zbudować tranzystor, układ scalony, komputer, telefon komórkowy, itd, itp. Jeżeli podstawowe prawa fizyki opisują procesy deterministyczne to dlaczego pojawia się losowość wielu zjawisk obserwowanych każdego dnia? Skąd jest ta losowść i ten brak przewidywalności różnych procesów zachodzących na naszej planecie, w naszym kraju, w naszej rodzinie, w naszym organizmie? Odpowiedź nie jest prosta. Ogólnie mówiąc źródłem losowości jest złożoność. Ale złożoność nie jest wystarczająca. Wszelkie formułowane odpowiedzi nie są i nigdy nie będą pełne. Ja przytoczę dwa podstawowe źródła losowości:

A. Własność chaotyczności

B. Makroskopowość układów (kolosalna liczba stopni swobody)

Własność chaotyczności uzmysławia nam złudność pojmowania determinizmu w mechanice klasycznej. Układy makroskopowe składają się z niesłychanie wielkiej liczby składników (cząstek, molekuł, makromolekuł. Ich opis metodami mechaniki (klasycznej lun kwantowej) jest nieefektywny. Co mam na myśli? Czy jestem w stanie analizowac układ równań różniczkowych zwyczajnych drugiego rzędu dla 1023 cząstek. Czy jestem w stanie podać \(2\times 10^{23}\) położeń początkowych i prędkości początkowych wszystkich cząstek? Czy jestem w stanie śledzić trajektorie wszystkich cząstek? Odpowiedź jest oczywista: NIE! Dlatego powstała inna efektywna metoda oparta na teorii nazywanej fizyką statystyczną. W tej teorii nie podajemy wszystkich położeń i prędkości cząstek, ale wielkość którą nazywamy rozkładem prawdopodobieństwa położeń i prędkości. Teoria ta jest efektywna. Ale nie tkwi w niej determinizm mechaniki Newtona. Tkwi w niej losowość.

uwagi

Uwaga 1:

W książce tej systematycznie i konsekwentnie używam oznaczeń: \(\xi, \; \xi_1, \; \xi_k, \; \eta, ...\) dla zmiennych losowych oraz \(\xi(t), \; \xi_1(t), \; \xi_k(t), \; \eta(t), ...\) dla procesów stochastycznych. Unikam stosowanego przez fizyków zapisu \(x(t), \; y(t), ...\) czy zapisu \(X_t, \; Y_t, ...\) stosowanego przez matematyków dla oznaczenia procesów stochastycznych. Głównym powodem jest poziom opanowania i zrozumienia pojęcia funkcji. Moja wieloletnia praktyka pokazuje, że to co dla matematyków i lepiej wykształconych matematycznie fizyków jest oczywiste, dla studentów - niekoniecznie. Wieloletni brak matury z matematyki zrobił swoje. Spustoszenie jest ogromne. Oto "krajobraz po bitwie": dla przeciętnego studenta \(f(x) =2 x^2\) jest inną funkcją niż \(h(a) = 2 a^2\). Dlatego wolę konsekwentnie pisać

\(<\xi(t)> = \int_{-\infty}^{\infty} x \; p(x, t) \;dx\)

Często zapis

\(<x(t)> = \int_{-\infty}^{\infty} x \; p(x, t) \;dx\)

prowadzi wśród studentów do nieporozumień.

Uwaga 2:


(1)\(\frac{1}{2} = 0.5\)


(2)\(\frac{1}{2} =2\)


(3)\(\frac{1}{2} =0.632\)


Równanie (1) jest prawdziwe, a rys 1

Równanie (3) jest z duzym przyblizeniem nieprawdziwe.


Zbiory

PODSTAWOWE POJĘCIA NA TEMAT ZBIORÓW

Często będziemy posługiwali się pojęciem zbiorów i będziemy dokonywać różnych operacji na zbiorach. Dlatego też przypomnimy podstawowe pojęcia i wprowadzimy oznaczenia, które będziemy stosować w dalszej części książki.

Oznaczmy przez \(\Omega\) zbiór, który nazwiemy przestrzenią. Niech \(A, B, ...\) będa podzbiorami zbioru \(\Omega\).

Sumą zbiorów nazywamy zbiór złożony ze wszystkich elementów należących do któregokolwiek z sumowanych zbiorów. Suma zbiorów \(A \) i \( B \) jest oznaczana przez \(A\cup B\). Tak więc:

\(A\cup B=\{x:x\in A\vee x\in B\}\)

Zapis ten odczytujemy następująco: jest to zbiór tych elementów x które należą do zbioru \(A\) lub należą do zbioru \(B\).

Iloczyn (lub część wspólna, przekrój, przecięcie) zbiorów \( A \) i \( B \) to zbiór, do którego należą te elementy zbioru \( A \), które należą również do \( B \). Część wspólna zbiorów \( A \) i \( B \) jest oznaczana przez \(A\cap B\). Tak więc:

\(A\cap B=\{x:x\in A\wedge x\in B\}\).

Zapis ten odczytujemy następująco: jest to zbiór tych elementów x które należą do zbioru \(A\) i jednocześnie należą do zbioru \(B\).


Różnica zbiorów A\B - to zbiór złożony z tych elementów zbioru A, które nie należą do B:

\(A \setminus B = \{ x : x\in A \and x \notin B\}\).

Zapis ten odczytujemy następująco: jest to zbiór tych elementów x które należą do zbioru \(A\) lecz nie należą do zbioru \(B\).


Dopełnieniem \(A'\) zbioru \(A\) (w przestrzeni \(\Omega\)) nazywa się różnica zbiorów

\(A'=\Omega \setminus A = \{x \in \Omega\colon x \notin A\}\),

Zapis ten odczytujemy następująco: jest to zbiór tych elementów x z przestrzeni \(\Omega\), które nie należą do zbioru \(A\).


Zbiór pusty jest to taki "dziwny" zbiór, który nie zawiera żadnych elementów. Oznaczany jest symbolem \(\empty\) lub \(\varnothing\).

Zbiory rozłączne – dwa zbiory \(A\) i \(B \) są rozłączne jeżeli ich część wspólna jest zbiorem pustym:

\(A\cap B=\empty\).

Inaczej mówiąc, zbiory te nie mają wspólnych elementów.

Na przykład, zbiory {1 ,2, 5, 8, 9} i {4, 6} są rozłączne, natomiast zbiory {2, 3, 5, 7, 8} i {2, 5, 6} – nie.

Rodzinę zbiorów| \((A_i)_{i\in I}\) nazywa się rodziną zbiorów parami rozłącznych, jeśli każde dwa różne zbiory tej rodziny są rozłączne: \[i\ne j \implies A_i\cap A_j = \emptyset\]

Elementy teorii prawdopodobieństa

Zdarzenia, procesy i zjawiska losowe (przypadkowe, stochastyczne) opisywane są przez teorię prawdopodobieństwa. W odróżnieniu od procesów deterministycznych, nie można jednoznacznie przewidywać wyników zdarzeń przypadkowych i ewolucji procesów losowych. Losowość opisujemy za pomocą prawdopodobieństwa zajścia określonych zdarzeń.


Przestrzeń probabilistyczna

Teoria prawdopodobieństwa bazuje, jak każda teoria matematyczna, na odpowiedniej przestrzeni. Matematycy analizowali i nadal analizują dziesiątki przestrzeni, jak na przykład przestrzenie liczbowe, wektorowe, topologiczne, unormowane, unitarne, metryczne, Banacha, Frecheta, Hausdorffa, Sobolewa, itd, itp.

Dla przykładu, dla teorii funkcji bardzo użyteczna jest przestrzeń metryczna. Przestrzeń metryczna jest takim zbiorem \( X \), w którym można zdefiniować odległość \( d(x, y)\, \) między dwoma jej elementami \( x \in X \) i \( y \in X \). Odleglość jest funkcją dwóch zmiennych \( x \) i \( y \) oraz posiada kilka charakterystycznych cech, np. odległość nie może byc ujemna. Jeżeli zdefiniujemy odległość w zbiorze \( X \), wówczas możemy w tym zbiorze określić zbieżność ciągów i wprowadzić pojęcie ciągłości funkcji. Możemy też zdefiniować pojęcie pochodnej funkcji i całki oznaczonej. Możemy dokonywać wielu innych operacji na funkcjach. Widać z tego przykładu, że pojęcie metryki jest bardzo użyteczne i zdefiniowanie metryki w jakimś zbiorze niesłychanie wzbogaca ten zbiór. Matematycy lubią definiować przestrzeń metryczna jako parę \( (X, d)\,\), tzn. jest to zbiór X wraz z określoną w niej odległościa, czyli metryką \( d=d(x, y) \,\).

Podobnie jest w teorii prawdopodobieństwa. Taka użyteczną przestrzenią jest przestrzenią probabilistyczną. Jest to zbiór, w którym określone są dodatkowe elementy, analogiczne do metryki. Dokładniej mówiąc przestrzeń ta nie jest parą jak w przypadku przestrzeni metrycznej, ale trójką, tzn. składa sie na nią trzy elementy

 \( (\Omega,  {\mathcal F},  P)\;\) 


Rozszyfrujmy poszczególne elementy tej trójki.

\(\Omega\): przestrzeń zdarzeń elementarnych 

Pierwszy element trójki \((\Omega, \mathcal F, P)\), tzn. zbiór \(\Omega\) może składać się ze skończonej lub nieskończonej ilości elementów i nazywa się zbiorem zdarzeń elementarnych. Element \(\omega \in \Omega\) nazywa się zdarzeniem elementarnym lub inaczej mówiąc możliwym wynikiem doświadczenia.

Przykłady zbioru zdarzeń elementarnych \(\Omega\)

1. Doświadczenie polega na jednokrotnym rzucie monetą. Są dwa możliwe wyniki: wypadnie orzeł lub reszka. Wynikowi "orzeł" możemy przyporządkować oznaczenie \(\omega_1\), natomiast wynikowi "reszka" - \(\omega_2\). Tak więc zbiór zdarzeń elementarnych składa się z 2 elementów:

\[\Omega =\{\omega_1, \omega_2\}\;\].

2. Doświadczenie polega na dwukrotnym rzucie monetą. Teraz możliwe są cztery wyniki: \(\omega_1 =\)(orzeł, orzeł), \(\omega_2 =\)(orzeł, reszka), \(\omega_3 =\)(reszka, orzeł) i \(\omega_1 =\)(reszka, reszka). Np. \(\omega_3 =\) =(reszka, orzeł) oznacza, że w pierwszym rzucie wypadła reszka, natomiast w drugim rzucie - orzeł.Tak więc zbiór zdarzeń elementarnych składa się z 4 elementów: \(\Omega =\{\omega_1,\omega_2,\omega_3, \omega_4\}\).

3. Doświadczenie polega na jednokrotnym rzucie kostką do gry w popularnego "chińczyka". Wynikiem może być jedno oczko, albo dwa oczka, albo trzy oczka, albo cztery oczka, albo pięć oczek, albo sześć oczek. Przyporządkowując liczbie oczek oznaczenie \(\omega_n \) dla \( n=1, 2, 3, 4, 5, 6 \) otrzymamy 6-elementowy zbiór zdarzeń elementarnych

\[\Omega =\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5, \omega_6 \}\;\].

4. Doświadczenie znowu polega na jednokrotnym rzucie kostką do gry w "chińczyka". Tym razem interesuje mnie tylko to, czy wypadnie parzysta liczba (to znaczy 2 lub 4 lub 6) czy nieparzysta liczba (to znaczy 1 lub 3 lub 5). Przyporządkowując nieparzystej liczbie oczek oznaczenie \(\omega_1 \), natomiast parzystej liczbie oczek oznaczenie \(\omega_2 \) otrzymamy 2-elementowy zbiór zdarzeń elementarnych

\[\Omega =\{\omega_1, \omega_2 \}\;\].


5. Podzielę rok na doby. Będę analizował momenty czasu \(t_1, t_2, t_3, ...\), gdy ktoś do mnie dzwoni w ciągu doby. Moment czasu \(t_i\) jest losowy oraz \(t_i \in [0, 24]\). W tym przykładzie moment czasu \(t_i=\omega_i\) jest zdarzeniem elementarnym, a

\[\Omega = [0, 24]\;\]

jest przestrzenią zdarzeń elementarnych. Przestrzeń ta jest umownym interwałem czasowym, w którym chcę badać statystykę rozmów telefonicznych.

6. Substancje radioaktywne emitują od czasu do czasu cząstki. Moment emisji cząstki jest losowy i może zajść w przedziale czasu \([t_0, \infty)\), gdzie \(t_0\) jest początkiem detekcji emitowanych cząstek. Dla wygody przyjmujemy \(t_0=0\). Wówczas zbiór zdarzeń elementarnych to nieskończony przedział

\[\Omega = [0, \infty)\;\]

7. Cząstka (nazywana cząstką Browna) porusza się w wodzie i zderza się z cząsteczkami wody. Ruch takiej cząstki Browna wydaje się być losowy i bardzo nieregularny. Dla fizyka modelującego zachowanie się cząstki Browna, przestrzenią zdarzeń elementarnych może być zbiór wszystkich możliwych położeń czastki, czyli przestrzeń trójwymiarowa \(\Omega = RxRxR=R^3\). Gdybyśmy ograniczyli się do możliwych ruchów tylko w jednym wymiarze (czyli na prostej rzeczywistej) to przestrzenią zdarzeń elementaranych byłby zbiór liczb rzeczywistych

\[\Omega = R = (-\infty, \infty)\;\]

Trzy ostatnie przykłady sa odmienne od czterech pierwszych przykładów. Zbiór \(\Omega = [0, 24]\), zbiór \(\Omega = [0, \infty)\) i zbiór \(\Omega = (-\infty, \infty)\) składają się z nieskończenie wielu elementów, tzn. z nieskończenie wielu liczb rzeczywistych z ograniczonego przedziału \( [0, 24]\), nieograniczonego przedziału \( [0, \infty)\) lub nieograniczonego przedziału \( (-\infty, \infty)\). Zbiory te nieskończenie wielu liczb są pod wieloma względami inne niż zbiór nieskończenie wielu liczb naturalnych czy całkowitych. Mówimy, że są one mocy continuum. Natomiast zbiór nieskończenie wielu liczb naturalnych jest przeliczalny. Gdyby przestrzeń zdarzeń elementarnych była równoliczna ze zbiorem liczb naturalnych, to też zawierałaby nieskończenie wiele elementów. Jednakże obie przestrzenie probabilistyczne są radykalnie różne. O tym będzie mowa w dalszej części wykładów.



\({\mathcal F}\): rodzina podzbiorów zbioru \(\Omega\)

Drugi element trójki \((\Omega, \mathcal F, P)\), tzn. zbiór \({\mathcal F}\) jest tzw. \(\sigma\)-algebrą podzbiorów zbioru \(\Omega\).

Innymi słowy, elementami zbioru \({\mathcal F}\) są podzbiory zbioru zdarzeń elementarnych \(\Omega\), ale niekoniecznie wszystkie możliwe podzbiory. Rodzina tych podzbiorów powinna spełniać określone własności. A mianowicie:

  1. zbiór pusty należy do rodziny \(\mathcal{F}\),
  2. dopełnienie \(A'\) zbioru \(A\) należącego do \(\mathcal{F}\) też należy do \(\mathcal{F}\),
  3. suma przeliczalnie wielu zbiorów z \(\mathcal{F}\) też należy do \(\mathcal{F}\).

Elementy zbioru \({\mathcal F}\) nazywają się zdarzeniami.

Często w literaturze \(\sigma\)-algebra zbiorów nazywa się też \(\sigma\)-ciałem zbiorów.

Dlaczego żądamy, aby spełnione były powyższe (na pierwszy rzut oka nieco dziwaczne) własności? Otóż dlatego, że chcemy przeprowadzać różne operacje na elementach rodziny \({\mathcal F}\), czyli na zdarzeniach i chcemy w wyniku takich operacji otrzymywać także zdarzenia. Dlatego też w ogólnym przypadku nie koniecznie należy rozpatrywać wszystkie podzbiory zbioru \(\Omega \), ale tylko takie podzbiory, które są zdarzeniami. Aby uzmysłowic sobie, o co mi chodzi, posłużę się bardziej elementarnym i odmiennym przykładem.

Rozważmy zbiór liczb naturalnych i niech \(N\) i \(M\) będą dwiema liczbami naturalnymi. Suma \(N+M\) oraz iloczyn \(N M\) też są liczbami naturalnymi. Jeżeli chcemy dokonywac tylko te dwie operacje na liczbach naturalnych, to w wyniku operacji dodawania i iloczynu dostaniemy zawsze liczby naturalne. Jeżeli natomiast chcemy dokonywać operacji odejmowania dwóch liczb naturalnych, to nie zawsze otrzymamy liczbę naturalną, ponieważ np. 10-25=-15 nie jest liczbą naturalną. Jeżeli zamiast liczb naturalnych, rozważać będziemy zbiór liczb całkowitych, to w wyniku wszystkich trzech operacji otrzymamy zawsze liczbę całkowita. Z kolei gdybyśmy chcieli rozpatrywać jeszcze operację dzielenia dwóch liczb z pewnego zbioru i otrzymywać zawsze liczby z tego zbioru, to musimy rozważać zbiór liczb wymiernych. Widać z tego, że w zależności od tego, jakie operacje będą wykonywane na elementach pewnego zbioru, musimy też odpowiednio dobrać ten zbiór. Innymi słowy, ten zbiór powinien posiadać odpowiednią strukturę, odpowiednie własności.

Przykłady \(\sigma\)-algebry \(\mathcal F\)

Powyzej podaliśmy pięć przykładów zbioru zdarzeń elementarnych \(\Omega\). Dla niektórych z tych przykładów podamy możliwe zbiory \(\mathcal F\).


1. Dla pierwszego przykładu, przy jednokrotnym rzucie monetą zbiorem zdarzeń elementarnych jest zbiór

\[\Omega =\{\omega_1, \omega_2\}\;\]

Ponieważ \(\mathcal F\) jest rodziną podzbiorów zbioru \(\Omega\), więc otrzymamy następujące możliwe podzbiory zbioru \(\Omega\):

zbiór pusty \(\emptyset\) (nie zawiera on żadnego elementu),
zbiory jednoelementowe \(\{\omega_1\}\) oraz \(\{\omega_2\}\),
zbiór dwuelementowy \(\{\omega_1, \omega_2\}\) czyli zbiór \(\Omega\)

Zauważmy, że \(\mathcal F\) zawiera 4 podzbiory, czyli \(2^2\). To samo otrzymujemy dla przykładu 4.


2. Dla trzeciego przykładu, przy jednokrotnym rzucie kostką zbiorem zdarzeń elementarnych jest zbiór

\[\Omega =\{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\;\]

Możliwymi podzbiorami tego zbioru są następujące podzbiory

(a) zbiór pusty \(\emptyset\)

(b) wszystkie możliwe zbiory jedno-elementowe

\(\{\omega_1\}, \{\omega_2\}, \{\omega_3\}, \{\omega_4\}, \{\omega_5\}, \{\omega_6\}\)

(c) wszystkie możliwe zbiory dwu-elementowe

\(\{\omega_1, \omega_2\}\), \(\{\omega_1, \omega_3\}\), \(\{\omega_1, \omega_4\}\), \(\{\omega_1, \omega_5\}\), \(\{\omega_1, \omega_6\}\)
\(\{\omega_2, \omega_3\}\), \(\{\omega_2, \omega_4\}\), \(\{\omega_2, \omega_5\}\), \(\{\omega_2, \omega_6\}\)
\(....................................................\)
\(\{\omega_5, \omega_6\}\)

(d) wszystkie możliwe zbiory trój-elementowe

\(\{\omega_1, \omega_2, \omega_3\}\), \(\{\omega_1, \omega_2, \omega_4\}\), \(\{\omega_1, \omega_2, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_6\}\)
\(\{\omega_1, \omega_3, \omega_4\}\), \(\{\omega_1, \omega_3, \omega_5\}\), \(\{\omega_1, \omega_3, \omega_6\}\)
\(....................................................\)
\(\{\omega_4, \omega_5, \omega_6\}\)


(e) wszystkie możliwe zbiory cztero-elementowe

\(\{\omega_1, \omega_2, \omega_3, \omega_4\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_6\}\),
\(....................................................\)
\(\{\omega_3, \omega_4, \omega_5, \omega_6\}\)


(f) wszystkie możliwe zbiory pięcio-elementowe

\(\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_6\}\),
\(....................................................\)
\(\{\omega_2, \omega_3, \omega_4, \omega_5, \omega_6\}\)


(g) tylko jeden zbiór sześcio-elementowy

\(\{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\)

czyli zbiór zdarzeń elementarnych \(\Omega\)

Zbiór \(\mathcal F= \mathcal F_1\) zawiera \(2^6=64\) elementy. Jest to maksymalna liczba możliwych podzbiorów zbioru składającego się z 6 elementów. Jest to dobrze znany wynik. W ogolności dla zbioru \(\Omega\) składajacego się z \(N\) elementów, rodzina \(\mathcal F\) liczy \(2^N\) elementów. Liczba podzbiorów k-elementowych w zbiore N-elementowym to liczba kombinacji

\(N \choose k\). Stąd mamy

\({6 \choose 0} =1\) zbiorów jzero-elementowych,

\({6 \choose 1} =6\) zbiorów jedno-elementowych,

\({6 \choose 2} =15\) zbiorów dwuelementowych,

\({6 \choose 3} =20\) zbiorów trzy-elementowych,

\({6 \choose 4} =15\) zbiorów cztero-elementowych,

\({6 \choose 5} =6\) zbiorów pięci-elementowych,

\({6 \choose 6} =1\) zbiorów sześcio-elementowych.


Suma tych liczb wynosi 64. Wynik ten można otrzymac z wyrażenia dla dwumianu Newtona

\((a+b)^N = \sum_{k=0}^N {N\choose k} a^k b^{N-k}\)

Przyjmując w tym wzorze a=b=1 otrzymamy

\(2^N = \sum_{k=0}^N {N\choose k}\)


Ten przykład jest interesujacy jeszcze z jednego powodu. Pokazuje on, że w zależności od tego, jakie pytania stawiamy, rodzina \(\mathcal F\) może być inaczej skonstruowana. Łatwo sprawdzić, że podzbiory

\(\emptyset\), \(\Omega\;\), \(\{\omega_1, \omega_3, \omega_5\}\;\), \(\{\omega_2, \omega_4, \omega_6\}\;\)

także spełniają własności \(\sigma\)-algebry. Więc jest to też możliwy zbiór \(\mathcal F= \mathcal F_2\).


Mamy obecnie dwie \(\sigma\)-algebry, oznaczone przez \(\mathcal F_1\) oraz \(\mathcal F_2\). Pierwsza \(\sigma\)-algebra zawiera 64 podzbiory, druga- tylko 4. Pamiętajmy, że elementy \(\sigma\)-algebry nazywają się zdarzeniami. Cóż to jest za zdarzenie

\(A_1= \{\omega_5, \omega_6\}\)

Jest to zdarzenie, polegające na tym, że przy jednokrotnym rzucie kostką wypadnie albo 5 albo 6.

Zdarzenie

\(A_2=\{\omega_1, \omega_3, \omega_5\}\)

oznacza, że wypadnie nieparzysta liczba oczek.

Zdarzenie

\(A_0=\emptyset \)

nazywa sie zdarzeniem niemożliwym.

Zdarzenie

\(A=\Omega= \{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\)

polega na tym, że przy jednokrotnym rzucie kostką wypadnie jedno z sześciu oczek. To jest pewne. Dlatego nazywa się ono zdarzeniem pewnym. Jest oczywiste, że gdy w jednokrotnym rzucie otrzymamy np. \(\omega 3\) czyli trójkę, to nie otrzymamy jedynki, czy piątki. To oznacza, że

\[i\ne j \implies \omega_i\cap \omega_j = \emptyset\]

Zdarzenia takie nazywamy zdarzeniami wzajemnie wykluczającymi się. W ogólności, jeżeli zachodzi relacja

\[i\ne j \implies A_i\cap A_j = \emptyset\]

to takie zdarzenia \(\{A_i\}\) nazywamy zdarzeniami wzajemnie wykluczającymi się.

Zauważmy, że rodzina podzbiorów \(\mathcal F_2\) jest znacznie uboższa niż rodzina \(\mathcal F_1\). Wybierając rodzinę podzbiorów \(\mathcal F_2\), pytamy tylko o parzystą lub nieparzystą liczbę oczek. Możemy konstruować jeszcze inne rodziny \(\mathcal F\).

Z powyższych przykładów wynika, że jeżeli przestrzeń zdarzeń elementranych składa się z n-elementów, to rodzina \(\mathcal F\) może składać się ze wszystkich podzbiorów zbioru \(\Omega\). A liczba wszystkich możliwych podzbiorów zbioru n-elementowego wynosi \(2^n\). Jest to maksymalna \(\sigma\)-algebra.

3. Jeżeli przestrzeń zdarzeń elementrnych jest zbiorem liczb rzeczywistych, tzn. \(\Omega = R\) lub dowolym jego podzbiorem, to \(\sigma\)-algebra generowana jest przez wszystkie zbiory otwarte \((a, b)\), gdzie \(a\) i \(b\) są dowolnymi liczbami rzeczywistymi. Tak \(\sigma\)-algebra składa się ze zbiorów otwartych \((a, b)\), zbiorów domknietych \([a, b]\), zbiorów półotwartych \([a, b)\) lub \((a, b]\), półprostych \((a, \infty)\), \((-\infty, b)\), \([a, \infty)\), \((-\infty, b]\), dowolnych przeliczalnych sum i iloczynów. Rodzina ta zawiera także różnice zbiorów i punkty. Wszystkie powyższe podzbiory tworzą najważniejszą \(\sigma\)-algebrę i nazywamy ją \(\sigma\)-algebrą zbiorów Borela.


\(P\): miara probabilistyczna 

Ostatni element trójki \((\Omega, \mathcal F, P)\), tzn. P jest funkcją i nazywa się miarą probabilistyczną lub po prostu prawdopodobieństwem. Argumentem tej funkcji są zdarzenia \(A\in \mathcal F\). Funkcja \(P\) musi spełniać określone warunki. Można je sformułować następująco:

Niech \({\mathcal F}\) będzie \(\sigma\)-algebrą podzbiorów zbioru \(\Omega\) oraz niech \(P:{\mathcal F}\longrightarrow {\mathbb R^+}\) będzie funkcją o następujących własnościach:

  1. \(P(A) \ge 0 \) dla dowolnego zdarzenia \(A \in {\mathcal F}\)
  2. \( P(\Omega) < \infty \)
  3. \(P\) jest σ-addytywna (lub inaczej mówiąc przeliczalnie addytywna), tzn.
\(P\left(\bigcup_{n = 0}^{\infty}~A_n\right) = \sum_{n = 0}^{\infty}~P(A_n)\) dla wszystkich parami rozłącznych zbiorów \(A_0,A_1,A_2,\ldots\in {\mathcal F}\).

Ponieważ elementy \(\sigma\)-algebry \(\mathcal F\) są zdarzeniami, to kazdemu zdarzeniu \(A \in \mathcal F\) przyporządkowujemy nieujemną liczbę \(P(A)\). To liczba ma interpretację prawdopodobieństwa zajścia zdarzenia \(A\). Z własności 2, że \(P(\Omega)\) jest liczbą skończoną i z przyczyn historycznych oraz tradycji zakładamy, że \(P(\Omega)=1\). Inaczej mówiąc, zawsze możemy unormować miarę probabilistyczną do jedności. Przypomina to przyjęcie określonych jednostek w fizyce. Np.masa jednego kilograma jest kwestią umowną. Unormowanie funkcji \(P\) do jedności oznacza, że

\[ 0 \le P(A)\le 1 \]

Addytywność oznacza, że

\(P(A\cup B)=P(A)+ P(B)\) dla wszystkich wzajemnie wykluczających się zdarzeń \(A,B\in {\mathcal F}\), to znaczy takich, że ich część wspólna

(iloczyn) jest zbiorem pustym: \(A \cap B =\emptyset \).


WAŻNE RELACJE

\(P(A)\in[0,1]\), \(P(\emptyset) = 0\), \(P(\Omega) = 1\,\)

\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)

\(P(A')=1-P(A)\,\)

PRAWDOPODOBIEŃSTWO WARUNKOWE

\(P(A \mid B) = \frac{P(A \cap B)}{P(B)} \)

Jest to prawdopodobieństwo zajścia zdarzenia A pod warunkiem że zachodzi zdarzenie B. Definicja ta ma sens pod warunkiem, że \(P(B) \ne 0\)


Przykłady miar probabilistycznych


1. Przy jednokrotny rzucie idealną monetą prawdopodobieństwo otrzymania orła (reszki) wynosi \(1/2\), czyli

\(P(\omega_1)=P(\omega_2) = \frac{1}{2}\)

Można też założyć ogólniejszy przypadek gdy \(P(\omega_1) =p_1\) oraz \(P(\omega_2) = p_2\). Wówczas musi zachodzić równość \(p_1+p_2=1\).

2. Przy jednokrotny rzucie idealną kostką prawdopodobieństwo otrzymania np. 2 oczek wynosi \(1/6\), czyli

\(P(\omega_k) = \frac{1}{6} \) dla \( k=1, 2, 3, 4, 5, 6 \).

Można też założyć ogólniejszy przypadek gdy \(P(\omega_k) =p_k \in [0, 1]\). Wówczas musi zachodzić równość \(p_1+p_2+p_3+p_4+p_5+p_6=1\).

3. Niech przestrzeń zdarzeń elementarnych składa sie z nieskończonej ale przeliczalnej liczby elementów

\(\Omega=\{\omega_1, \omega_2, \omega_3, ...\}\)

Jeżeli \(P(\omega_k)=p_k \in [0, 1]\) oraz \(\sum_{k=1}^{\infty}p_k = 1\), to otrzymamy dobrze określone prawdopodobieństwa zajścia dowolnych zdarzeń w tej przestrzeni probabilistycznej.

4. Jeżeli przestrzenią zdarzeń elementarnych jest zbiór liczb rzeczywistych lub jego podzbiór, wówczas zdarzeniami są przedziały. Niech, niezależnie od interpretacji, zdarzeniem jest przedział \(A=(2, 8)\). Czy można określić prawdopodobieństwo zajścia zdarzenia \(A\), czyli ile wynosi

\(P(A=(2, 8))\)

Tak abstrakcyjnie sformułowane pytanie ma nieskończenie wiele możliwych realizacji. Podamy jedną z przykładowych odpowiedzi. Niech \(\Omega =R\). Niech \(f(x)\) będzie funkcja określoną na zbiorze \(\Omega\) o następujących własnościach

(i) \(f(x) \ge 0\) for all \(x\in \Omega \)

(ii) \(\int_{-\infty}^{\infty} f(x) dx =1\)

Wówczas

\(P(A=(2, 8)) = \int_{2}^{8} f(x) dx\)

Zamiast zbioru \(\Omega = R\), mozna rozważać półprostą lub odcinek. Wówczas we wzorze (ii) przedziałem całkowania jest półprosta lub odcinek.

Zmienna losowa

Przestrzeń probabilistyczna jest zbiorem, więc tak jak na każdym zbiorze tak i na przestrzeni probabilistycznej możemy definiować odwzorowania. Niech \(f\) będzie dowolną funkcją określoną na zbiorze \(X\) o wartościach w zbiorze \(Y\). Pamiętamy, że element zbioru \(X\) nazywany jest argumentem funkcji (zmienną niezależną), natomiast zbiór \(Y\) jest zbiorem wartości funkcji. Zmienna losowa jest też funkcją, tyle że na przestrzeni probabilistycznej. Tutaj odpowiednikiem zbioru \(X\) jest zbiór zdarzeń elementarnych \(\Omega\), a zmienną niezależną jest zdarzenie elementarne \(\omega\). Jednak nie wszystkie funkcje na zbiorze \(\Omega\) nazywają się zmiennymi losowymi. Problem jest nieco podobny do tego, że nie wszystkie funkcje są funkcjami ciągłymi. Z "praktyki" studenci wiedzą, że funkcje ciągłe są "przyjemniejsze" (na przykład granica lewostronna jest równa granicy prawostronnej i jest to liczba skończona). Analogiem funkcji ciągłych są zmienne losowe.


Precyzyjna definicja matematyczna jest następujaca:

Niech \((\Omega, F, P)\) będzie przestrzenia probabilistyczną oraz \((X, {\mathcal B})\) -- przestrzenią fazową, tzn. zbiorem \(X\) wraz z \(\sigma\)-algebrą \({\mathcal B}\) zbioru \(X\). Zwykle \(X=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}\) są zbiory Borela.


Zmienną losową (rzeczywistą) na przestrzeni probabilistycznej \((\Omega, \mathcal F, P)\) nazywamy dowolną rzeczywistą funkcję mierzalną \(\xi \colon \Omega \to R\), tzn. funkcję \(\xi \) spełniającą warunek

\(\xi^{-1}(B)\in \mathcal{F}\) dla każdego zbioru borelowskiego \(B\subset {\mathcal B}\).

Innymi słowy, przeciwobraz zbioru Borela jest zdarzeniem w przestrzeni probabilistycznej \(\Omega\). Definicja ta przypomina topologiczna definicję odwzorowania ciągłego: mówiąc w wielkim skrócie, odwzorowanie \(G\) nazywa się ciągłym gdy przeciwobraz każdego zbioru otwartego jest zbiorem otwartym. Jest to mniej znana definicja odwzorowania ciągłego, ale jest ona równoważna tradycyjnej definicji ciągowej.

Zwykle zmienne losowe zapisuje się za pomocą liter greckich \(\xi, \eta, \), odmiennie niż zapisuje się funkcje. Oznaczenie \(\xi(\omega)\) odpowiada tradycyjnemu zapisowi dla funkcji \(f(x)\).

Dodatkowo narzucamy warunek

\(P(\{\omega: \xi(\omega)=\pm \infty\})=0\)

Innymi słowy, zbiór wszystkich zdarzeń elementarnych, dla których zmienna losowa przyjmuje nieskończone wartosci, jest miary zero. Np. gdy analzujemy ruch cząstki Browna, prawdopodobieństwo tego, że czastka ta jest w nieskończoosci wynosi zero. Jest to naturalne założenie dla wszystkich realnych zjawisk. Jeżeli jako zbiór Borela w przestrzeni fazowej \(X\) przyjmiemy \(B=(-\infty, x]\), gdzie \(x\) jest dowolna liczbą rzeczywistą, to warunek mierzalności można napisać w bardziej przejrzystej formie:

\(\{\omega: \xi(\omega) \le x\} \in\mathcal F \;\)

czyli zbiór takich \(\omega \; \) jest elementem \(\sigma\)-algebry \(\mathcal F\), to znaczy jest zdarzeniem w wyjściowej przestrzeni \(\Omega\). Oczywiście zbiór

\(\{\omega: \xi(\omega) > x\} \in \mathcal F \;\)

też jest zdarzeniem dla dowolnych wartości \(x\).

Rozważa się również zmienne losowe o wartościach w abstrakcyjnych przestrzeniach topologicznych (żeby analogicznie mówić o przeciwobrazach zbiorów borelowskich danej przestrzeni topologicznej) - i tak, na przykład: zmienne losowe o wartościach zespolonych nazywa się zmiennymi losowymi zespolonymi. Odwzorowanie mierzalne określone na przestrzeni \(\Omega\) o wartościach w przestrzeni \(R^n\) nazywa się wektorem losowym. Wektor losowy ma postać \( \xi(\omega) = \left(\xi_1(\omega), \xi_2(\omega), \dots, \xi_n(\omega)\right)\), gdzie \(\xi_i(\omega)\;\) dla \(i = 1, \dots, n\) są zmiennymi losowymi rzeczywistymi.

Rozkłady prawdopodobieństwa zmiennej losowej

Jeżeli badamy zjawiska losowe, to zwykle przypisujemy im jakieś wektory zmiennych losowych. Te zmienne losowe przyjmują wartości z pewnych zbiorów. Tymi zbiorami są często zbiory Borela. W teorii probabilistycznej pytamy, jakie jest prawdopodobieństwo tego, że zmienna losowa przyjmuje wartości należące np. do przedziału \((2, 8)\;\), a ten przedział jest zbiorem Borela. Analizując ruch cząstki Browna, możemy zapytać, jakie jest prawdopodoieństwo tego, że chwili czasu \(t=7 \;\) cząstka znajduje się w przedziale położeń \((2, 8)\). Jeżeli jesteśmy w stanie odpowiadac na tego typu pytania, to znaczy że znamy rozkłady prawdopodobieństa zmiennych losowych.

Formalna definicja brzmi:

Funkcją rozkładu (lub równoważnie rozkładem prawdopodobieństwa) \(\mathcal P_{\xi}(B) \;\) zmiennej losowej \(\xi\) nazywamy funkcję na przestrzeni fazowej zdefiniowanej w następujący sposób:

\(\mathcal P_{\xi}(B) = P(\{\omega: \xi(\omega) \in B\})\)

Funkcja \(\mathcal P \;\) ma wszystkie własności miary probabilistycznej: jest nieujemna, przeliczalnie addytywna i unormowana do jedności. To oznacza, że ma interpretację prawdopodobieństwa. Innymi slowy, \(\mathcal P_{\xi}(B) \;\) jest prawdopodobieństwem tego, że zmienna losowa przyjmuje wartości należące do zbioru Borela \(B\). Czasami stosuje się zapis


\(\mathcal P_{\xi}(B) = Pr(\xi \in B) \)             prawdopodobieństwo tego, że zmienna losowa \(\xi\) przyjmuje wartości należące do zbioru Borela \(B\)


Ponieważ narzucamy dodatkowy, ale naturalny warunek

\( P(\{\omega: \xi(\omega) = \pm \infty\}) = 0\)

to wynika stąd że

\(Pr (\xi = \pm \infty) = 0\)


Zwróćmy uwagę na różne oznaczenia prawdopodobieństw \(P\) i \(\mathcal P\). Zapis \(P(A)\) oznacza prawdopodobieństwo zdarzenia \(A\) w przestrzeni probabilistycznej \(\Omega\), natomiast zapis \(\mathcal P_{\xi}(B)\) oznacza prawdopodobieństwo zdarzenia w przestrzeni fazowej \(X\). Powyższą równość definiującą prawdopodobieństwa w przestrzeni fazowej \(X\) matematycy określają jako transport miary z jednej przestrzeni (tutaj \(\Omega\)) w inną przestrzeń (tutaj \(X\)). Jest to równość, której różne wersje są bardzo często wykorzystywane. Studenci powinni zrozumieć jej istotę. Zauważmy, że znając \(\mathcal P_{\xi}\), przestrzeń fazowa \(X\) staje się nowa przestrzenia probabilistyczną:

\((X, \mathcal B, \mathcal P_{\xi})\)

Na tej przestrzeni probabilistycznej można zdefiniować nową zmienną losową jako odwzorowanie zbioru \(X\) w zbiór \(Y\) będący nową przestrzenią fazową. Oczywiście w zbiorze \(Y\) należy zdefiniować \(\sigma\)-algebrę, np. zbiorów Borela. Konstrukcję taką możemy powtarzać wielokrotnie, otrzymując nowe zmienne losowe. Można zauważyć, że gdy mamy określone wszystkie trzy elementy w trójce \((X, \mathcal B, \mathcal P_{\xi})\), to wcale nie potrzebna nam jest wyjściowa przestrzeń probabilistyczna \((\Omega, \mathcal F, P)\). Możemy o niej zapomnieć, ponieważ znajomość funkcji rozkładu \(\mathcal P_{\xi} \) zmiennej losowej \(\xi\) jest wystarczająca do zbadania wszystkich probabilistycznych własności samej zmiennej losowej \(\xi\).

Niektóre zbiory Borela są bardziej "uprzywilejowane" od innych (jak to zwykle bywa na tym świecie). Przykładem wyjątkowo "uprzywilejowanego" zbioru Borela jest półprosta ( raczej rodzina półprostych)

\(B=(-\infty, x]\)

gdzie \(x\in R\) jest dowolna liczbą rzeczywistą.

Wówczas stosujemy specjalne oznaczenie dla rozkładu prowadopodobieństwa, a mianowicie

\(F_{\xi}(x) = \mathcal P_{\xi}(B) = \mathcal P_{\xi}( (-\infty, x]) = Pr(\xi \in (-\infty, x]) = Pr(\xi \le x) = P(\{\omega: \xi(\omega) \in (-\infty, x]\}) = P(\{\omega: \xi(\omega) \le x\})\)

Użyliśmy tu wszystkich możliwych form na zapis tej samej wielkości. Ponieważ wielkość ta zależy od wartości \(x\), to oznacza po prostu że jest to funkcja zależna od \(x\). Tak więc \(x\) traktujemy jako zmienną niezależną w funkcji \(F_{\xi}(x)\).

Rozkład powyższy nazywamy dystrybuantą zmiennej losowej \(\xi\). Dystrybuanta \(F_{\xi}(x)\) jest funkcją parametru \(x\), który wyznacza prawy koniec przedziału \((-\infty, x]\). Jeżeli wiemy o jaką zmienną losową chodzi (aby nie prowadziło to do niejednoznaczności) to stosujemy skrócony zapis

\(F(x) = F_{\xi}(x)\)


Przykłady zmiennej losowej i jej rozkłady prawdopodobieństwa

Podamy przykładY zmiennej losowej i wyliczymy jej różne rozkłady prawdopodobieństwa. PrzykładY te pozwolĄ studentowi wyrobić intuicję o własnościach dystrybuanty. Wprowadzimy też specjalny zapis dystrubuanty tej zmiennej losowej za pomocą funkcji schodkowej Heaviside'a, użyteczny pod wieloma względami, np. ułatwiający zapis różnych procesów stochastycznych i pozwalający na ich łatwe uogólnienia.


1. Doświadczenie polega na jednokrotnym rzucie kostką do gry. Wiec przestrzenią zdarzeń elementarnych jest zbiór

\(\Omega = \{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5, \omega_6 \}\)

Niech zmienna losowa \(\xi\) błędzie zdefiniowana przez relację

\(\xi(\omega_k) = 2k+3\)

Przestrzeń fazowa składa się z wartości tej funkcji, a mianowicie

\(X=\{\xi(\omega_k)\} = \{5, 7, 9, 11, 13, 15 \}\)

Zdarzenie

\(\{\xi(\omega) \le 9\} = \{\omega: \xi(\omega) \le 9 \} = \{\omega_1, \omega_2, \omega_3\} = \omega_1 \cup \omega_2 \cup \omega_3= A \).

Więc

\(F(9) = F_{\xi}(9) = P(A) = P(\{\omega_1, \omega_2, \omega_3\}) = P(\omega_1) + P(\omega_2) + P(\omega_3) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{1}{2} \)

Wykorzystaliśmy tu własność addytywności prawdopodobieństwa dla zdarzeń wzajemnie wykluczających się, \(\omega_i \cap \omega_j = \empty\) dla \(i \ne j\).

Zdarzenie

\(\{\xi(\omega) \le 0\} \)

jest zdarzeniem niemożliwym, to znaczy nie ma takich zdarzeń elementarnych \(\omega_k\), aby \(\xi(\omega_k) \le 0 \). Najmniejszą wartością zmiennej losowej jest liczba \(\xi(\omega_1) = 5\). Dlatego też

\(F(0) = Pr(\xi \le 0) =0\)

Natomiast zawsze na przykład \(\xi(\omega_k) \le 20 \). To jest pewne. Dlatego też

\(F(20) = Pr(\xi \le 20) =1\)


TU TRZEBA DOKONCZYC I DODAC RYSUNEK, DYSTRYBUANTE WYRAZIC ZA POMOCA TETA HEAVISIDE'A.

2. Oto przykład dziwnej zmiennej losowej. Definiujemy ją przez relację

\(\xi(\omega) = 3\)

Może ona być zdefiniowana dla dowolnej przestrzeni probabilistycznej. Jak ja interpretować? Niezależnie od wyniku \(\omega \) dowolnego doświadczenia przypisujemy jej wartość \(3\). Jest to analog funkcji stałej \(f(x)=3\): niezależnie od wartości zmiennej niezależnej \(x\), wartość funkcji zawsze wynosi \(3\). Użyliśmy określenia "dziwna zmienna losowa" ponieważ ta zmienna losowa tak naprawdę nie jest losowa: zawsze wynosi 3. Porównajcie ją z poprzednim przykładem: dla różnych \(\omega\) otrzymywaliśmy różne wartości \(\xi\). Tym razem, obojętnie jaka liczba oczek wypadnie, zawsze temu przypisujemy liczbę \(3\). Oczywiście zamiast liczby 3, może być wybrana każda inna liczba rzeczywista, np. \(\xi =c , \; c\in R\). Jej dystrybuanta może być wyznaczona podobnie jak w poprzednim przykładzie. W wyniku otrzymamy

\(F_{\xi}(x) = \theta(x-3)\)

Graficznie, jest to funkcja schodkowa o jednym schodku, patrz rysunek.

Jeżeli \(\xi(\omega) = c\) to \(F_{\xi}(x) = \theta(x-c)\). Zapamiętajcie ten przykład, ponieważ będzie on wielokrotnie wykorzystywany w różnym kontekście: Jeżeli zmienna losowa nie jest "losowa", to znaczy jest "deterministyczna", wówczas jej dystrybuanta jest funkcją teta Heaviside'a. Dla przykładu, jeżeli znamy dokładnie położenie cząstki Browna w chwili czasu \(t=0\) i wynosi \(\xi = 5\), to wówczas odpowiadająca temu dystrybuanta ma postać

\(F_{\xi}(x) = \theta(x-5)\)


3. Bardzo ważny przykład. Rozważmy dowolą przestrzen probabilistyczną \(\Omega\). Rozbijmy ją na dwa podzbiory \(A\) i jego dopełnienie \(A'\), to znaczy

\(\Omega = A \cup A'\), \( A \cap A' = \empty\)


Mamy dwa zdarzenia: zdarzenie \(A\) które nazwiemy umownie sukcesem i zdarzenie \(A'\) które nazwiemy umownie porażką. Mamy pojedyńcze doświadczenie E i w wyniku tego doświadczenie możemy otrzymać sukces \(A\) lub porażkę \(A'\). Niech prawdopodobieństwo sukcesu wynosi \(p=p_1\) i porażki \(q=p_2\), czyli

\(P(A) = p=p_1, \; P(A') = q=p_2, \; p+q=1\)


Zdefiniujmy zmienną losową \(\xi\) w następujący sposób:

\(\xi(A) = 1\)

\(\xi(A') = 0\)

Zauważmy, że prawdopodobieństwo tego że \(\xi=1\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A\), czyli

\(Pr (\xi = 1) = P(A) = p_1 \)

Podobnie, prawdopodobieństwo tego że \(\xi=0\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A'\), czyli

\(Pr (\xi = 0) = P(A') = p_2, \)

Ponieważ zmienna losowa przyjmuje dwie wartości, więc jej dystrybuanta składa się z dwóch schodków:

\(F_{\xi}(x) = p \theta(x-1) + q\theta (x-0) = p_1 \theta(x-1) + p_2 \theta (x-0) \)


4. Przykład podsumowujący. Niech przestrzeń probabilistyczna będzie sumą wzajemnie rozłącznych podzbiorów (zdarzeń wzajemnie wykluczających się) \(A_k \; (k=1, 2, 3, ..., n)\), to znaczy


\(\Omega = A_1 \cup A_2 \cup A_3 \cup ... \cup A_n\)

\(A_i \cap A_j = \empty\) dla \(i \ne j\)

i niech

\(P(A_k) = p_k, \; k=1, 2, 3, ... n\)

przy czym suma wszystkich prawdopodobieństw wynosi 1 (warunek unormowania),

\(\sum_{k=1}^{n} p_k = 1\)

Zdefiniujmy zmienną losową przez relację

\(\xi(A_k) = x_k, \; \; k=1, 2, 3, ... n\)

Zauważmy, że prawdopodobieństwo tego że \(\xi=x_k\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A_k\), czyli

\(Pr (\xi = x_k) = P(A_k) = p_k\)

Mając praktykę nabytą przy analizie poprzednich trzech przykładów możemy napisać wyrażenie na dystrybuantę tej zmiennej losowej:


                                                    \(F_{\xi} (x) = \sum_{k=1}^{n} p_k \theta(x-x_k)\) 


W wyrażeniu tym \(x_k\) - to są możliwe wartości zmiennej losowej \(\xi\), natomiast \(p_k =Pr(\xi = x_k)\) jest prawdopodobieństwem tego, że zmienna losowa \(\xi\) przyjmuje wartość \(x_k\).




Własności dystrybuanty

Wprost z definicji wnioskujemy o 2 własnościach:

(1) \(F_{\xi}(\infty) = Pr(\xi \le \infty) =1\)

(2) \(F_{\xi}(-\infty) = Pr(\xi \le -\infty) = 0\)

Pozostałe 3 własności to:

(3) \(F_{\xi}(x)\) jest funkcją niemalejącą, to znaczy

jeżeli \(x_1 < x_2 \) to \(F_{\xi}(x_1) \le F_{\xi}(x_2)\)

(4) \(F_{\xi}(x)\) jest funkcją prawostronnie ciągłą, to znaczy

\(\lim_{\epsilon \to 0^+} F_{\xi}(x+\epsilon) = F_{\xi}(x) \)

Zapisujemy to w skróconej postaci jako

\(F_{\xi}(x^+) = F_{\xi}(x) \)

(5) \(Pr(\xi = x) = \lim_{\epsilon \to 0^+}[F_{\xi}(x) - F_{\xi}(x-\epsilon)] = F_{\xi}(x) - F_{\xi}(x^-) \)

Wynika stąd, że jeżeli dystrybuanta jest funkcją ciągłą (prawostronnie i lewostronnie ciągłą) to

\(Pr(\xi = x) = 0 \)

Dystrybuanta, jak inne funkcje, niekoniecznie musi być różniczkowalna we wszystkich punktach (dla wszystkich wartości \(x\)). W zależności od własności funkcji \(F_{\xi}(x)\), możemy dokonać klasyfikacji zmiennych losowych. I tak jeżeli \(F_{\xi}(x)\) jest funkcją ciągłą i różniczkowalną, z wyjątkiem co najwyżej przeliczalnej liczby punktów (to znaczy nie jest różniczkowalna w co najwyżej przeliczalnej liczbie punktów), wówczas \(\xi \) nazywamy zmienną losową ciągłą. Jeżeli dystrybuanta jest funkcją schodkową, to \(\xi\) nazywa się zmienną losową dyskretną. Pozostałe zmienne losowe będziemy nazywać mieszanymi.

Z własności (5) wynika, że dla zmiennych losowych ciągłych \(Pr(\xi = x) = 0 \). To jest bardzo ważną własność. Jeżeli rozpatrujemy losowy ruch cząstki Browna, to prawdopodobieństwo tego, że w pewnej chwili czasu jest ona w położeniu x wynosi zero! Podobnie jest dla losowych procesów urodzin: prawdopodobieństwo tego, że dziecko urodzi się w chwili dajmy na to \(t=5\) wynosi zero. Dla zmiennych losowych ciągłych pytania innego typu mają nietrywialną odpowiedź. Tym pytaniem jest na przykład: jakie jest prawdopodobieństwo tego, że w pewnej chwili czasu cząstka znajduje się w przedziale położeń \((x_1, x_2)\) lub: jakie jest prawdopodobieństwo tego, że dziecko urodzi się w przedziale czasowym \((t_1, t_2)\). Odpowiedź na tego typu pytania daje znajomość dystrybuanty. Pokażemy obecnie, że dla \(x_2 > x_1\) zachodzi relacja


\(Pr(\xi \in (x_1, x_2]) = F_{\xi}(x_2) - F_{\xi}(x_1)\) 


Zauważmy, że zbiór

\(\{\xi \le x_2\} = \{\xi \le x_1 \} \cup \{x_1 < \xi \le x_2\} \)

oraz dwa ostatnie zbiory są rozłączne, to znaczy

\( \{\xi \le x_1 \} \cap \{x_1 < \xi \le x_2\} = \empty\)

Odpowiadające im zdarzenia wzajemnie wykluczają się, więc korzystając z \(\sigma\)-addytywności prawdopodobieństwa otrzymamy

\(Pr(\xi \le x_2) = Pr( \{\xi \le x_1 \} \cup \{x_1 < \xi \le x_2\}) = Pr(\xi \le x_1) + Pr(x_1 < \xi \le x_2) \)

Korzystając z kolei z definicji dystrybuanty, wyrażenie to można przepisać w postaci

\( F_{\xi}(x_2) = F_{\xi}(x_1) + Pr(\xi \in (x_1, x_2]) \)

Stąd otrzymujemy powyższą relację.


Gęstość rozkładu prawdopodobieństwa

Gęstość rozkładu prawdopodobieństwa zmiennej losowej

Dystrybuanta \(F_{\xi}(x)\) zmiennej losowej \(\xi\) jest funkcją \(x\), to znaczy prawego końca przedziału \(A=(-\infty, x]\) będącego zdarzeniem. Zdarzenie to ma taką oto interpretację: zmienna losowa \(\xi\in (-\infty, x]\). Pochodna

                                                           \(p_{\xi}(x) = \frac{dF_{\xi}(x)}{dx}\)


nazywa się gęstością rozkładu prawdopodobieństwa zmiennej losowej \(\xi\). Można też spotkać takie nazwy jak: funkcja gęstości, gęstość prawdopodobieństwa lub funkcja gęstości prawdopodobieństwa. Powyższe wyrażenie scałkujemy obustronnie w odpowiednich granicach:

\(\int_{-\infty}^x \frac{dF_{\xi}(y)}{dy} dy = F_{\xi}(x) - F_{\xi} =(-\infty) = F_{\xi}(x) = \int_{-\infty}^x p_{\xi}(y)dy \)

Związek ten pozwala wyrazić dystrybuantę przez gęstość prawdopodobieństwa. Rozpatrzmy teraz wzór (****) na prawdopodobieństwo tego, że zmienna losowa przyjmuje wartości z pewnego przedziału oraz skorzystajmy z powyższego wzoru. Otrzymamy wówczas:

\(Pr(\xi \in (x_1, x_2]) = F_{\xi}(x_2) - F_{\xi}(x_1) = \int_{-\infty}^{x_2} p_{\xi}(y)dy -\int_{-\infty}^{x_1} p_{\xi}(y)dy = \int_{-\infty}^{x_2} p_{\xi}(y)dy +\int_{x_1}^{-\infty} p_{\xi}(y)dy\)

Korzystając z własności całek oznaczonych możemy przepisać ten wzór w postaci


                                                 \( Pr \{ \xi \in (x_1, x_2])\} = \int_{x_1}^{x_2} p_{\xi}(y)dy \)


Jest to jedna z najważniejszych relację, która wiąże gęstość prawdopodobieństwa z prawdopodobieństwem.

Można również podać ogólniejszy wzór dla prawdopodobieństwa rozkładu, a mianowicie prawdopodobieństwo tego, że zmienna losowa \(\xi\) przyjmuje wartości z pewnego zbioru \(B\) wynosi


\( Pr \{ \xi \in B)\} = \int_{B} p_{\xi}(y)dy \)

Innymi słowy, należy gęstość rozkładu prawdopodobieństwa scałować po obszarze \(B\).


Własności gęstość rozkładu prawdopodobieństwa:

1. Ponieważ dystrybuanta jest funkcją niemalejącą to jej pochodna (czyli gęstość) jest funkcją nieujemną. Stąd

\(p_{\xi}(x) \ge 0\)  


2. Ponieważ \(F_{\xi}(\infty) = Pr(\xi \le \infty) =1\) stąd


\(\int_{-\infty}^{\infty} p_{\xi}(y)dy =1\)

Relację tę nazywa się warunkiem unormowania.

Można postawić sobie pytanie odwrotne, czy każdej funkcji \(p(x)\) o podanych powyżej dwóch własnościach odpowiada jakaś zmienna losowa? Odpowiedź jest pozytywna i matematycy formułują ją w postaci twierdzenia: tak, istnieje taka zmienna losowa dla której gęstość rozkładu prawdopodobieństwa ma postać \(p(x)\). Ponieważ istnieje nieskończenie wiele funkcji nieujemnych i normowalnych w różnych przestrzeniach fazowych, wiec istnieje także nieskończenie wiele zmiennych losowych.

Dla zmiennej losowej ciągłej, najczęściej przestrzenią fazową jest prosta (cała oś liczbowa), półprosta lub odcinek. Wówczas warunek unormowania odnosi się do prostej, półprostej lub odcinka. W dwóch ostatnich przypadkach warunek unormowania ma na przykład postać:

\(\int_{0}^{\infty} p_{\xi}(y)dy =1 \)

gdy przestrzenią fazową jest zbiór \(X = [0, \infty)\) lub

\(\int_{0}^{1} p_{\xi}(y)dy =1\)

gdy przestrzenią fazową jest odcinek \(X = [0, 1] \).

Zapis dla przypadków tego typu zawsze mozna sprowadzić do jednolitego zapisu z przedziałem całkowania \(X = )-\infty, \infty)\) poprzez przedefiniowanie funkcji gęstości rozkładu prawdopodobieństwa, wykorzystując funkcję schodkową Heaviside'a \(\theta(x)\). I tak dla półprostej

\(p_{\xi}(x) -> {\tilde p}_{\xi}(x) = \theta(x) p_{\xi}(x)\)

Wówczas warunek unormowania można zapisać w postaci

\(\int_{-\infty}^{\infty} {\tilde p}_{\xi}(y)dy =1 \)

Podobnie, gdy \(X = [0, 1]\), przedefiniowana gęstość ma postać

\(p_{\xi}(x) -> {\tilde p}_{\xi}(x) = \theta(x) \theta (1-x) p_{\xi}(x)\)


UWAGA: Niektórzy studenci (ci o słabszym opanowaniu wiadomości z teorii funkcji i teorii całki) mają kłopoty ze zrozumieniem zapisu różnych wyrażeń matematycznych. Przykładem takim są równoważne wyrażenia


\(\int_{-\infty}^{\infty} p_{\xi}(y)dy = \int_{-\infty}^{\infty} p_{\xi}(x)dx = \int_{-\infty}^{\infty} p_{\xi}(u)du = \int_{-\infty}^{\infty} p_{\xi}(s)ds =1\)

Należy pamiętać, że zmienna całkowania jest "niemą" zmienną i można ją oznaczać dowolnymi literami, a nie tylko literą "x" czy "y".


Przykłady gęstości prawdopodobieństwa dla zmiennych losowych ciągłych


Każdy z czytelników może wymyślać swoje własne zmienne losowe wybierając jakieś nieujemne i normowalne funkcje. Ale taka zabawa nie byłaby zbytnio konstruktywna ponieważ trudno byłoby taką metodą podać realne zjawiska które mają takie rozkłady. My podamy 3 możliwe funkcji abstrahując na razie od analizy samych zmiennych losowych i żródła ich występowania. Zwróćmy uwagę na różne przestrzenie fazowe dla poszczególnych zmiennych losowych, to znaczy dopuszczalne wartości zmiennej \(x\).

1. Zmienna losowa normalna (gaussowska, o rozkładzie Gaussa) opisywana jest gęstością prawdopodobieństwa w postaci

\(p(x) = N \exp(-ax^2)\), \(x\in (-\infty, \infty)\),

parametr \(a>0\), stałą \(N\) wyznacza się z warunku unormowania


2. Zmienna losowa o rozkładzie gamma

\(p(x) = N x^b \exp(-ax)\), \(x\in [0, \infty)\), \(b > -1\)

\(a\) i \(N\) - podobnie jak w przykładzie 1.


3. Zmienna losowa o rozkładzie beta

\(p(x) = N x^b (1-x)^c \), \(x\in [0, 1]\), \(b, c > -1\)

\(N\) - podobnie jak w przykładzie 1.


Wszystkie trzy przykłady opisują zmienne losowe ciągłe odpowiednio na przestrzeniach fazowych: \((-\infty, \infty)\), \([0, \infty)\) oraz \([0, 1]\).



Gęstość prawdopodobieństwa dla zmiennych losowych dyskretnych

Możemy rozpatrzeć przykład 4 zmiennej losowej, ponieważ zawiera on pozostałe 3 przykłady jako przypadki szczególne. Poniweaż znamy dystrybuantę dla tej zmiennej losowej, to wyznaczenie gęstości prawdopodobieństwa polega na zróżniczkowaniu tej funkcji. Jedynym problemem jest obliczenie pochodnej funkcji tetea Heaviside'a. Ponieważ funkcja ta jest funkcją nieciągłą, wieć z pewnością standardowa pochodna nie istnieje w każdym punkcie. Natomiast z pewnością istnieje pochodna uogólniona, czyli innymi słowy pochodna w sensie teorii dystrybucji lub krócej: pochodna dystrybucyjna. Z teorii dystrybucji wiemy, że

\(\frac{d\theta(x)}{dx} = \delta(x)\)


gdzie \(\delta(x)\) jest dystrybucją Diraca nazywaną potocznie deltą Diraca lub funkcją delta Diraca (chociaż nie jest to funkcja w potocznym czy standardowym sensie).

Korzystajac z powyższej formuły dla pochodnej funkcji schodkowej oraz ze wzoru na dystrybuantę zmiennej losowej losowej, możemy napisać wyrażenie na gęstość prawdopodobieństwa zmiennej losowej losowej dyskretnej w postaci:


                                                    \(p_{\xi} (x) = \sum_{k=1}^{n} p_k \delta(x-x_k)\) 


W wyrażeniu tym \(x_k\) - to są możliwe wartości zmiennej losowej \(\xi\), natomiast \(p_k =Pr(\xi = x_k)\) jest prawdopodobieństwem tego, że zmienna losowa \(\xi\) przyjmuje wartość \(x_k\).

Momenty statystyczne zmiennej losowej

w praktycznych zastosowaniach,często interesują nas niektóre charakterystyki probabilistyczne zmiennej losowej. Typową taką wielkością jest wartość średnia zmiennej losowej. W literaturze istnieją też inne nazwy na wartość średnią: wartość oczekiwana, wartość przeciętna, nadzieja matematyczna, pierwszy moment statystyczny, moment statystyczny pierwszego rzędu. Pojęcie to jest uogólnieniem prostego pojęcia średniej z dwóch liczb: Jeżeli mamy dwie liczby, na przykład 2 oraz 6 to wartość średnia wynosi \((2+6)/2=4\). Ogólniej, dla dwóch liczb a oraz b, wartość średnia wynosi \((a+b)/2\). Dla zbioru liczb \((x_1, x_2, x_3, ..., x_n)\) wartość średnia wynosi

\(\frac{x_1+ x_2+ x_3+ ...+ x_n}{n}= \sum_{k=1}^{n} \frac{1}{n} x_k\).

Jeżeli mamy określoną zmienną losową dyskretną \(\xi=\{x_1, x_, x_3, ..., x_n\}\) przyjmującą wartości \(x_k\) z prawdopodobieństwem \(p_k\), to wartość średnia \( <\xi> \) zmiennej losowej \(\xi\) jest naturalnym uogólnieniem powyższego wzoru i ma postać

                                             \(<\xi> = \sum_{k=1}^{n} p_k x_k\)

Niektórzy (zwłaszcza matematycy i kręgi zbliżone do nich) stosują inne oznaczenie na wartość średnią, a mianowicie

\(<\xi> = m_1 = E \xi = E ( \xi )= \mathbb E\xi \)

Litera E pochodzi od angielskiego słowa "Expectation" oznaczającego "oczekiwanie, nadzieja". Fizycy wolą stosować swoje oznaczenie \(<\xi>\).


Jeżeli zmienna losowa jest typu ciągłego o gęstości prawdopodobieństwa \(p_{\xi}(x)\) to jej wartość średnia wyraża się przez całkę

                                             \(<\xi> = \int_{-\infty}^{\infty}  x p_{\xi}(x) dx\)

gdzie obszarem całkowania jest przestrzeń fazowa \(X=(-\infty, \infty)\). W przypadku przestrzeni fazowych: \([0, \infty)\) oraz \([0, 1]\) wartość średnia ma odpowiednio postać

\(<\xi> = \int_{0}^{\infty} x p_{\xi}(x) dx\)

\(<\xi> = \int_{0}^{1} x p_{\xi}(x) dx\)

Oczywiscie granice całkowania można rozciągnąć do całej osi liczb rzeczywistych \((-\infty, \infty)\), ale należy pamiętać o przedefiniowaniu gęstości rozkładu z użyciem funkcji schodkowej Heaviside'a \(\theta(x)\), podobnie jak to podaliśmy w przykładach na temat unormowania funkcji rozkładu.

Wartość średnia jest momentem statystycznym zmiennej losowej. Jest to pierwszy moment lub moment pierwszego rzędu. Moment k-tego rzędu \(m_k\) jest zdefiniowany przez wyrażenie


\(m_k = <\xi^k> = \int_{-\infty}^{\infty} x^k p_{\xi}(x) dx\)

Kilka pierwszych momentów znajduje klarowne zastosowanie do analizy zmiennych losowych. Drugi moment - przy badaniu odchylenia wartości zmiennej losowej od swej wartości średniej, a dokładniej

\(\sigma^2 = m_2-m_1^2 = <(\xi - m_1)^2> = <\xi^2> - <\xi>^2 \)

Wielkość ta nazywa się wariancją zmiennej losowej, a pierwiastek kwadratowy \(\sqrt (\sigma^2)\) nazywa się odchyleniem standardowym.

Moment trzeciego rzędu pojawia się w "skośności" i jest miarą asymetrii gęstości prawdopodobieństa, natomiast moment czwartego rzędu pojawia się w kurtosis, wielkości która jest miarą spłaszczenia (lub ostrości) gęstości prawdopodobieństwa wokół wartości średniej oraz służy też jako miara odstępstwa od rozkładu normalnego (gaussowskiego).

Funkcja charakterystyczna zmiennej losowej

Momenty statystyczne zmiennej losowej zostały zdefiniowane w poprzedniej części. Matematyk doszukał by się tam oszustwa matematycznego. Dlaczego? Jeżeli badamy moment statystyczny drugiego rzędu \(m_2= <\xi^2>\), to zauważmy że tym wyrażeniu pojawia się wielkość \(\xi^2\), którą de facto nie zdefiniowaliśmy. Wielkość \(\eta=\xi^2\) jest nową zmienna losową \(\eta\) określoną na przestrzeni probabilistycznej \(X\). Poniewaz \(\eta \)jest zmienna losową, więc możemy zdefiniować jej rozkład prawdopodobieństwa \(h_{\eta}(y)\). Mając rozkład prawdopodobieństwa \(h_{\eta}(y)\) można zdefiniować wartość średnią

\(<\eta> = \int_{-\infty}^{\infty} y h_{\eta}(y) dy\)

Okazuje się że średnia tą można wyrazić przez wzór

\(<\eta> = <\xi^2> = \int_{-\infty}^{\infty} x^2 p_{\xi}(x) dx\)


Z powyższych dwóch wzorów można znależć gęstość \(h_{\eta}(y)\) z gęstości \(p_{\xi}(x)\) (stosując podstawienie \(y=x^2\) i dokonując zamiany zmiennej w drugiej całce.

Istnieje także ogólniejsza relacja: dla dowolnej funkcji \(g\) zmiennej losowej \(\xi\), to znaczy dla funkcji \(g(\xi)\), jej wartość średnia wynosi


\( <g(\xi)> = \int_{-\infty}^{\infty} g(x) p_{\xi}(x) dx\)

Wybierzmy teraz jako funkcję \(g\) funkcję exponencjalną, to znaczy \(g(x) = \exp(i\omega x)\), gdzie \(\omega \in R\) jest dowolną liczbą rzeczywistą. Uwaga: \(\omega\) nie ma nic wspolnego ze zdarzeniem elementarnym. Wówczas otrzymamy


\( <\exp(i \omega \xi> = \int_{-\infty}^{\infty} \exp(i\omega x) p_{\xi}(x) dx\)


Wielkość ta zależy od wartości liczby \(\omega\). Nazywa się ona funkcją charakterystyczną zmiennej losowej \(\xi\) i oznacza w następujący sposób:

                                                \(C_{\xi}(\omega) = <e^{i\omega \xi}> = \int_{-\infty}^{\infty}  e^{i\omega x}  p_{\xi}(x) dx\)                            


Ławto zauważyć, że jest to transformata Fouriera gęstości prawdopodobieństa \( p_{\xi}(x)\). Z teorii transformat Fouriera wynika, że relację powyższą można odwrócić i wyrazić gęstości prawdopodobieństwa \( p_{\xi}(x)\) przez funkcję charakterystyczną \(C_{\xi}(\omega)\). Innymi słowy, trzeba wykorzystać wzór na transformację odwrotną

\(p_{\xi}(x) = \frac{1}{2\pi} \int_{-\infty}^{\infty} e^{-i\omega x} C_{\xi}(\omega) d\omega \)

Podsumowując, można powiedzieć, że zmienna losowa może być równoważnie scharakteryzowana albo przez dystrybuantę \(F_{\xi}(x)\), albo przez gęstość prawdopodobieństwa \(p_{\xi}(x)\), albo przez funkcję charakterystyczną \(C_{\xi}(\omega)\).

Znajomość funkcji charakterystycznej jest wyjątkowo przydatna: bardzo łatwo jest wyznaczyć momenty statystyczne zmiennej losowej. Jeżeli zróżniczkujemy ze względu na \(\omega\) relację (...), to otrzymamy

\(\frac{dC_{\xi}(\omega)}{d\omega} = \int_{-\infty}^{\infty} e^{i\omega x} (i x) p_{\xi}(x) dx\)

Wyrażenie to dla \(\omega = 0 \) przyjmuje postać


\(\frac{dC_{\xi}(\omega)}{d\omega}|_{\omega =0} = i \int_{-\infty}^{\infty} x p_{\xi}(x) dx = i <\xi>\)


Widać, że wartość pochodnej funkcji charakterystycznej dla \(\omega=0\) determinuje wartość średnia zmiennej losowej.

Podobnie otrzymamy


\(\frac{d^k C_{\xi}(\omega)}{d\omega^k}|_{\omega =0} = i^k \int_{-\infty}^{\infty} x^k p_{\xi}(x) dx = i <\xi^k>\)

Otrzymujemy w ten sposób momenty statystyczne zmiennej losowej. Zamiast uciążliwej procedury obliczania całek, które pojawiają sie w relacjach definiujących momenty statystyczne, wystarczy zróżniczkować funkcję charakterystyczną, co jest operacją technicznie znacznie łatwiejszą niż całkowanie.


Momenty statystyczne zmiennej losowej dyskretnej

Wszystkie wzory podane na momenty statystyczne i dla funkcji charakterystycznej sa słuszne zarówno dla zmiennych losowych typu ciągłego jak i typu dyskretnego. Czasami wygodniej jest uprościć powyższe formuły gdy analizujemy zmienne losowe dyskretne. W tym celu, w formułach tych należy wstawić odpowiednie wyrażenie dla gęstości rozkładu prawdopodobieństwa

\(p_{\xi} (x) = \sum_{k=1}^{n} p_k \delta(x-x_k)\)

pamiętając o całkowaniu gdy pod całką występuje delta Diraca (patrz Dodatek matematryczny)


Podamy teraz listę odpowiednich formuł dla zmiennej losowej dykretnej \(\xi = \{x_1, x_2, ..., x_n\}\) gdy \(Pr(\xi = x_k) = p_k\).

Moment statystyczny l-tego rzędu

\(<\xi^l> = \sum_{k=1}^n x_k^l \, p_k \)

Wartość średnia

\(<g(\xi)> = \sum_{k=1}^n g(x_k) \,  p_k \)

Funkcja charakterystyczna

\(C_{\xi}(\omega) = < e^{i \omega \xi}> = \sum_{k=1}^n e^{i\omega x_k} \, p_k \)

Dwie zmienne losowe

Będziemy rozważali jedna przestrzen probabilistyczną, dwie przestrzenie fazowe \(X\) i \(Y\) oraz dwa odwzorowania:

(1) odwzorowanie przestrzeni \((\Omega, F, P)\) w przestrzeń fazową \((X, {\mathcal B}_1)\) wraz z \(\sigma\)-algebrą \({\mathcal B}_1\) zbioru \(X\). Zwykle \(X=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}_1\) są zbiory Borela. Odwzorowanie to oznaczymy przez \(\xi\):

\(\xi : \Omega \to X\)


(2) odwzorowanie przestrzeni \((\Omega, F, P)\) w przestrzeń fazową \((Y, {\mathcal B}_2)\) wraz z \(\sigma\)-algebrą \({\mathcal B}_2\) zbioru \(Y\). Zwykle \(Y=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}_2\) są zbiory Borela. Odwzorowanie to oznaczymy przez \(\eta\):

\(\eta : \Omega \to Y\)

Narzucimy podobne warunki jak dla jednej zmiennej losowej: przeciwobrazy zbiorów Borela \(B_1 \in {\mathcal B}_1)\) oraz \(B_1 \in {\mathcal B}_1)\) są zdarzeniami w przestrzeni probabilistycznej \(\Omega\). Otrzymujemy w ten sposów dwie zmienne losowe \(\xi \) i \(\eta\). Interesują nas teraz łaczne rozkłady prawdopodobieństwa dwóch zmiennych losowych na tej samej przestrzeni \(\Omega\). Dla przykładu zdarzenie

\(\{\xi \in B_1, \eta \in B_2\} = \{\xi \in B_1\} \cap \{\eta \in B_2\} = \{ \eta \in B_2\} \cap \{\xi \in B_1 \} =\{ \eta \in B_2, \xi \in B_1, \} \)

oznacza tyle że zmienna losowa \(\xi\) przyjmuje wartości ze zbioru Borela \(B_1 \in {\mathcal B}_1\) i jednocześnie zmienna losowa \(\eta\) przyjmuje wartości ze zbioru Borela \(B_2 \in {\mathcal B}_2\).

Pytamy, ile wynosi prawdopodobieństwo

\(P_{\xi \eta}(B_1, B_2) = Pr(\xi \in B_1, \eta \in B_2) = P(\{\omega: \xi(\omega) \in B_1, \eta(\omega) \in B_2\})\)

Wielkość tą nazywamy łącznym rozkładem prawdopodobieństwa dwóch zmiennych losowych \(\xi \) i \(\eta\).

Podobnie definiujemy łączną dystrybuantę dwóch zmiennych losowych

\(F_{\xi \eta}(x, y) = Pr(\xi \le x, \eta \le y) = P(\{\omega: \xi(\omega) \le x, \eta(\omega) \le y\})\)

Stosując konsekwentnie powyższy zapis, możemy podać ciąg równości:

\(F_{\xi \eta}(x, y) = Pr(\xi \le x, \eta \le y) = Pr( \eta \le y, \xi \le x) = F_{\eta \xi}(y, x)\)

Pamiętajmy, że sekwencja poszczególnych oznaczeń (liter) jest tu istotna dla poprawnego zrozumienia różnych zapisów. Łatwo zauważyć, że spełnione są relacje

\(F_{\xi \eta}(x, \infty) = Pr(\xi \le x, \eta \le \infty) = Pr(\xi \le x) = F_{\xi}(x)\)

\(F_{\xi \eta}(\infty, y) = Pr(\xi \le \infty, \eta \le y) = Pr(\eta \le y) =F_{\eta}(y) \)

Skorzystaliśmy tu z tego, że prawdopodobieństwo tego iż zmienna losowa przyjmuje zawsze skończone wartości wynosi jeden. Innymi slowy, zawsze jest spelniona nierownosc \(\xi \le \infty\).

Dystrybuanty \(F_{\xi}(x)\) i \(F_{\eta} (y)\) nazywaja się rozkładami zredukowanymi.


Gęstość rozkładu prawdopodobieństwa

Dla jednej zmiennej losowej, gęstość rozkładu prawdopodobieństwa była zdefiniowana jako pochodna dystrybuanty \(F_{\xi}(x)\) ze względu na \(x\). Dla dwóch zmiennych losowych, dystrybuanta \(F_{\xi \eta}(x, y)\) zależy od dwóch zmiennych \(x\) i \(y\). Więc gęstość rozkładu prawdopodobieństwa definiujemy jako pochodną ze względu na \(x\) i \(y\), czyli pochodną miweszaną drugiego rzędu:

\(p_{\xi \eta}(x, y) = \frac{\partial^2 F_{\xi \eta}(x, y)}{\partial x \, \partial y} = \frac{\partial^2 F_{\xi \eta}(x, y)}{\partial y \, \partial x}\)


Powyższe wyrażenie scałkujemy obustronnie po \(x\) i \(y\) w odpowiednich granicach:

\(\int_{-\infty}^x \int_{-\infty}^y \frac{\partial^2 F_{\xi \eta}(u, v)}{\partial u \, \partial v} du dv = F_{\xi \eta}(x, y) = \int_{-\infty}^x \int_{-\infty}^y p_{\xi \eta}(u, v) du dv \)

Związek ten pozwala wyrazić dystrybuantę przez gęstość prawdopodobieństwa. Przy operacji całkowania wykorzystaliśmy tu własności dystrybuanty:

\(F_{\xi \eta}(x, -\infty) = Pr(\xi \le x, \eta \le -\infty) = 0 \)

\(F_{\xi \eta}(-\infty, y) = Pr(\xi \le -\infty, \eta \le y) = 0 \)

\(F_{\xi \eta}(-\infty, -\infty) = Pr(\xi \le -\infty, \eta \le -\infty) = 0 \)

Ponieważ

\(F_{\xi \eta}(\infty, \infty) = Pr(\xi \le \infty, \eta \le \infty) = 1 \)

więc otrzymujemy warunek unormowania dla gęstości prawdopodobieństwa


\( \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p_{\xi \eta}(u, v) du dv = F_{\xi \eta}(\infty, \infty) =1 \)


Prawdopodobieństwo tego, że zmienna losowa \(\xi \in (x_1, x_2]\) i zmienna losowa \(\eta \in (y_1, y_2]\) wynosi

\(Pr(\xi \in (x_1, x_2], \eta \in (y_1, y_2]) = Pr(x_1 < \xi \le x_2, y_1 < \eta \le y_2) = \int_{x_1}^{x_2} \int_{y_1}^{y_2} p_{\xi \eta}(u, v) du dv\)

Skorzystalismy tu z następującej relacji

\( Pr(x_1 < \xi \le x_2, y_1 < \eta \le y_2) = Pr(x_1 < \xi \le x_2, \eta \le y_2) -Pr(x_1 < \xi \le x_2, \eta \le y_1) \)

\( = \left[Pr( \xi \le x_2, \eta \le y_2) - Pr( \xi \le x_1, \eta \le y_2) \right] - \left[ Pr( \xi \le x_2, \eta \le y_1) - Pr( \xi \le x_1, \eta \le y_1)\right] \)

\( = [F(x_2, y_2) - F(x_1, y_2) ] - [ F(x_2, y_1)- F(x_1, y_1)] = F(x_2, y_2) - F(x_1, y_2) - F(x_2, y_1)+ F(x_1, y_1)\)

oraz z własności całek oznaczonych.

Można również podać ogólniejszy wzór dla prawdopodobieństwa rozkładu, a mianowicie prawdopodobieństwo tego, że zmienne losowe \(\xi\) i \(\eta\) przyjmują wartości z pewnego zbioru \(D\) na płaszczyźnie


\( Pr \{ (\xi, \eta) \in D)\} = \int \int_{D} p_{\xi \eta}(x, y) dx dy \)

Innymi słowy, należy gęstość rozkładu prawdopodobieństwa scałować po obszarze \(D\).


Rozkłady zredukowane

Jeżeli znamy łączny rozkład prawdopodobieństwa \(p_{\xi \eta}(x, y)\) dwóch zmiennych losowych, wówczas znamy też wszystkie charakterystyki jednej zmiennej losowej \(\xi \) czy też \(\eta\), to znaczy znamy też rozkłady \(p_{\xi}(x)\) i \(p_{\eta}(y)\) dla tych zmiennych losowych. Te rozkłady nazywają się rozkładami zredukowanymi (marginalnymi). Jak otrzymać rozkład zredukowany \(p_{\xi}(x)\) z rozkładu łącznego \(p_{\xi \eta}(x, y)\)? Punktem wyjścia będzie związek całkowy między dystrybuantą \(F_{\xi \eta}(x, y)\)a gęstością \(p_{\xi \eta}(x, y)\) dany przez równanie (%%%%),

\( F_{\xi \eta}(x, y) = \int_{-\infty}^x \int_{-\infty}^y p_{\xi \eta}(u, v) du dv \)

Z jednej strony

\( F_{\xi \eta}(x, \infty) = \int_{-\infty}^x \int_{-\infty}^{\infty} p_{\xi \eta}(u, v) du dv \)

Z drugiej strony

\( F_{\xi \eta}(x, \infty) = Pr(\xi \le x, \eta \le \infty) = \Pr(\xi \le x) = F_{\xi}(x) \)


Stąd otrzymujemy równość

\( F_{\xi}(x) = \int_{-\infty}^x \int_{-\infty}^{\infty} p_{\xi \eta}(u, v) du dv \)

Wyraziliśmy w ten sposób dystrybuantę zredukowaną przez łączną gęstość prawdopodobieństwa. Pamietamy, że pochodna dystrybuanty \( F_{\xi}(x)\) względem \(x\) jest gęstością \(p_{\xi}(x)\), więc

\( \frac{d F_{\xi}(x)}{dx} = p_{\xi}(x) = \int_{-\infty}^{\infty} p_{\xi \eta}(x, v) dv \)


Skorzystaliśmy z podstawowego twierdzenia teorii całki dotyczącego różniczkowania całki względem górnej granicy całkowania (patrz Dodatek).

Podobnie można pokazać, że

\( p_{\eta}(y) = \int_{-\infty}^{\infty} p_{\xi \eta}(u, y) du \)

Otrzymujemy następującą receptę na zredukowane rozkłady: Aby otrzymać gęstość rozkładu prawdopodobieństwa dla jednej zmiennej losowej, należy wycałkować łączną gęstość rozkładu prawdopodobieństwa dla dwóch zmiennych losowych po wszystkich możliwych wartościach drugiej zmiennej losowej.

W przypadku zmienny losowych dyskretnych obowiązuje ta sama recepta. Ale w tym przypadku odpowiednie wzory można przedstawić w innej postaci. Sprecyzujmy to zagadnienie: Rozważamy dwie zmienne losowe dyskretne o możliwych wartościach \(\xi = x_i\) i \(\eta =y_k\), to znaczy

\(\xi = \{x_1, x_2, x_3, ..., x_n\}\)

\(\eta = \{y_1, y_2, y_3, ..., y_m\}\)

W ogólności \(n \ne m\), ale możliwe są przypadki gdy \(n=m\). Łączny rozkład prawdopodobieństwa jest określony gdy znamy wszystkie prawdopodobieństwa

\(p_{ik} = Pr\{\xi=x_i, \eta = y_k\} \ge 0\)


Warunek unormowania przyjmuje teraz postać


\(\sum_{i=1}^{n}\sum_{k=1}^{m} p_{ik} = 1\)


Zredukowane prawdopodobieństwa otrzymujemy ze związków

\(p_i= Pr\{ \xi =x_i\} = \sum_{k=1}^{m} p_{ik} \)

\(q_k= Pr\{ \eta =y_k\} = \sum_{i=1}^{n} p_{ik} \)


Związki te można otrzymać z poprzednich relacji pamiętając, że gęstość rozkładu prawdopodobieństwa dla dwóch zmiennych losowych dyskretnych mozna przedstawić za pomocą wzoru

\(p_{\xi \eta}(x, y) = \sum_{i=1}^{n}\sum_{k=1}^{m} p_{ik} \delta(x-x_i) \delta(y-y_k) \)

Pamiętajmy, że dla jednej zmiennej losowej mamy przedstawienie za pomocą wzorów

\(p_{\xi}(x) = \sum_{i=1}^{n}p_{i} \delta(x-x_i)\)

\(p_{\eta}(y) = \sum_{k=1}^{m} q_{k} \delta(y-y_k) \)

Wektor zmiennych losowych

W teorii procesów stochastycznych, w teorii szeregów czasowych, w statystyce musimy rozważać wiele (czasami nieskończenie wiele) zmiennych losowych na tej samej przestrzeni probabilistycznej \((\Omega, \mathcal F, P)\). Mówimy wówczas o wektorze zmiennych losowych lub o wektorze losowym:

\({\mathbf \xi} = [\xi_1, \xi_2, ..., \xi_n]\)

lub dokładniej

\({\mathbf \xi}(\omega) = [\xi_1(\omega), \xi_2(\omega), ..., \xi_n(\omega)]\)

Jest to wektor losowy o \(n\)-składowych, gdzie

\(\xi_k : \Omega \to X_k \; k=1, 2, 3, \dots , n\)

jest mierzalnym odwzorowaniem w przestrzeń fazową \((X_k, {\mathcal B}_k)\). Zwykle \(X_k=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}_k\) są zbiory Borela na zbiorze liczb rzeczywistych.

Podobnie jak w przypadku dwóch zmiennych losowych, rozważamy łaczne rozkłady prawdopodobieństwa.

\(P_[[:Szablon:\mathbf \xi]](B_1, B_2, ..., B_n) = Pr(\xi_1 \in B_1, \xi_2 \in B_2, \ ..., \xi_n \in B_n) = P(\{\omega: \xi_1(\omega) \in B_1, \xi_2(\omega) \in B_2, \ ..., \xi_n(\omega) \in B_n)\)

Wielkość tą nazywamy łącznym rozkładem prawdopodobieństwa \(n\)-zmiennych losowych lub n-wymiarowym rozkładem oprawdopodobieństwa. Podobnie definiujemy łączną dystrybuantę \(n\)-zmiennych losowych

\(F(x_1, x_2, ..., x_n) = Pr(\xi_1 \le x_1, \xi_2 \le x_2, ..., \xi_n \le x_n) \)


Nie będziemy używać dolnych wskaźników dla oznaczenia, o jakie zmienne losowe chodzi. Możemy powyzszą dystrybuante nazywać n-wymiarową dystrybuantą i aby to uwypuklić, czasami będziemy oznaczać to dolnym wskaźnikiem jako \(F_n(x_1, x_2,..., x_n)\). Gęstość rozkładu prawdopodobieństwa n-zmiennych losowych definiujemy przez uogólnienie wzorów dla jednej i dwóch zmiennych losowych:

\( p(x_1, x_2, ..., x_n) = \frac{ \partial^n F(x_1, x_2, ..., x_n)}{\partial x_1 \partial x_2 ... \partial x_n} \)

Możemy ją nazwać n-wymiarową gęstością rozkładu prawdopodobieństwa. Warunek unormowania ma postać

\( \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} p(x_1, x_2, ..., x_n) dx_1 dx_2...dx_n = 1 \)


Wartość średnia funkcji

\(g(\xi_1, \xi_2, ..., \xi_n) \)

wektora losowego \(\xi\) ma postać


\( <g(\xi_1, \xi_2..., \xi_n)> = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} g(x_1, x_2, ..., x_n) p(x_1, x_2, ..., x_n) dx_1 dx_2 ... dx_n \)


Funkcja charakterystyczna wektora losowego \(\xi\) jest zdefiniowana podobnie jak dla jednej zmiennej losowej. Wprowadzimy następujące oznaczenia

\({\mathbf x}= [x_1, x_2, ... , x_n] \)

\({\mathbf \omega} = [\omega_1, \omega_2, ... , \omega_n ]\)

\( d^n{\mathbf x}= dx_1 \, dx_2 \, ... \, dx_n \)


Wówczas funkcja charakterystyczna wektora losowego jest określona przez wzór


\( C_{\mathbf \xi}(\mathbf \omega) = C(\omega_1, \omega_2, \dots \omega_n) = \langle e^{i {\mathbf \omega} \cdot {\mathbf \xi(t)} } \rangle = \langle \exp \left[i \sum_{k=1}^n \omega_k \xi_k(t)\right] \rangle \)

\( = \int_{-\infty}^{\infty} e^{i {\mathbf \omega} \cdot {\mathbf x} } p_{\mathbf \xi}({\mathbf x}) d^n{\mathbf x} = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{i \sum_{k=1}^n \omega_k x_k} p(x_1, x_2, ..., x_n) \, dx_1 dx_2 \dots dx_n \)


Wyrażenie to jest n-wymiarową transformatą Fouriera gęstości rozkładu prawdopodobieństwa \(p(x_1, x_2, ..., x_n)\). Odwrotna transformata Fouriera ma postać

\( p_[[:Szablon:\mathbf \xi]]({\mathbf x}) = p(x_1, x_2, ..., x_n) = \frac{1}{(2\pi)^n} \int_{-\infty}^{\infty} e^{-i {\mathbf \omega} \cdot {\mathbf x} } C_{\xi}({\mathbf \omega}) d^n{\mathbf \omega} = \frac{1}{(2\pi)^n} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{-i \sum_{k=1}^n \omega_k x_k} C(\omega_1, \omega_2, \dots \omega_n) \, d\omega_1 d\omega_2 \dots d\omega_n \)



Można też otrzymać zredukowane rozkłady. Mogą to być rozkłady jedno-wymiarowem \(p(x_k)\), dwu-wymiarowe \(p(x_i, x_k)\), trój-wymiarowe \(p(x_i, x_j, x_k)\), itd. Otrzymujemy je z n-wymiarowego rozkładu \(p(x_1, x_2, ..., x_n)\) poprzez wycałkowanie po odpowiednich zmiennych. Podamy kilka przykładów ilustrujących tę receptę:


\( p(x_1, x_2, x_4) = \int_{-\infty}^{\infty} p(x_1, x_2, x_3, x_4) dx_3 \)


\( p(x_1, x_4) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x_1, x_2, x_3, x_4) dx_2 dx_3 \)

\( p(x_4) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x_1, x_2, x_3, x_4) dx_1 dx_2 dx_3 \)

\( p(x_2) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x_1, x_3, x_4) dx_1 dx_3 dx_4 \)

Zmienne losowe niezależne

Jeżeli rzucamy dwukrotnie monetą, to wynik w drugim rzucie nie zależy od wyniku w pierwszym rzucie (oczywiście zakładamy, że nie oszukujemy). Jeżeli wynik w pierwszym rzucie oznaczymy jako \(\xi\), a w drugim rzucie jako \(\eta\) i nazwiemy je zmiennymi losowymi, to możemy powiedzieć że te dwie zmienne losowe są od siebie niezależne. To intuicyjne pojęcie niezależności można sprecyzować matematycznie dla dowolnych zmiennych losowych. Jeżeli mamy dwie dowolne zmienne losowe \(\xi\) i \(\eta\), to powiemy, że są one niezależne gdy dla dowolnych zbiorów Borela \(B_1 \in X\) oraz \(B_2 \in Y\) w przestrzeni fazowej \(X\) zmiennej losowej \(\xi\) i przestrzeni fazowej \(Y\) zmiennej losowej \(\eta\) zachodzi relacja


\(P_{\xi \eta}(B_1, B_2) = Pr(\xi \in B_1, \eta \in B_2) = Pr(\xi \in B_1) Pr(\eta \in B_2) = P_{\xi}(B_1) P_{\eta}(B_2)\)


Inaczej mówiąc, zdarzenia \(\{\xi \in B_1\}\) i \(\{\eta \in B_2\}\) są niezależne i łączny rozkład prawdopodobieństwa jest iloczynem rozkładów dla poszczególnych zmiennych losowych. Jeszcze inaczej mówiąc, dwu-wymiarowy rozkład prawdopodobieństwa jest iloczynem rozkładów jedno-wymiarowych. Jeżeli jako zbiory \(B_1\) i \(B_2\) wybierzemy półproste \(B_1= (-\infty, x]\) i \(B_2= (-\infty, y]\) to dla niezależnych zmiennych losowych zachodzi

\(F_{\xi \eta}(x, y) = F_{\xi}(x) F_{\eta}(y)\)

Różniczkując to wyrażenie względem \(x\), a następnie względem \(y\) (lub odwrotnie) stwierdzamy, że

\(p_{\xi \eta}(x, y) = p_{\xi}(x) p_{\eta}(y)\)


Tak więc dla zmiennych losowych niezależnych wszelkie dwu-wymiarowe (łączne) rozkłady są iloczynem rozkładów jedno-wymiarowych (zredukowanych).

Dla wektora zmiennych losowych

\(\xi\) \(= [\xi_1, \xi_2, \xi_3, ..., \xi_n]\)

zmienne losowe są między sobą niezależne, gdy łaczny rozkład prawdopodobieństwa.

\(P_{\xi}(B_1, B_2, ..., B_n) = Pr(\xi_1 \in B_1, \xi_2 \in B_2, ..., \xi_n \in B_n) = Pr(\xi_1 \in B_1) Pr(\xi_2 \in B_2) ... Pr(\xi_n \in B_n) = P_{\xi_1}(x_1) P_{\xi_2}(x_2) ... P_{\xi_n}(x_n)\)

Podobnie łączna dystrybuanta jest iloczynem jedno-wymiarowych dystrybuant dla poszczególnych zmiennych losowych

\(F(x_1, x_2, ..., x_n) = F_{\xi_1}(x_1) F_{\xi_2}(x_2) ... F_{\xi_n}(x_n)\)

Różniczkując to wyrażenie po kolei względem \(x_1, x_2, ... x_n\) (mozna jednokrotnie różniczkować względem każdej ze zmiennych w dowolnej kolejności) stwierdzamy, że

\(p(x_1, x_2, ..., x_n) = p_{\xi_1}(x_1) p_{\xi_2}(x_2) ... p_{\xi_n}(x_n)\)

Uwaga: to nie oznacza, że teoria zmiennych losowych niezależnych upraszcza się do teorii jednej zmiennej losowej.


Dla zmiennych losowych niezależnych, funkcja charakterystyczna wektora losowego ma postać

\(C_{\xi}(\omega) = C(\omega_1, \omega_2, \dots \omega_n) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{i \sum_{k=1}^n \omega_k x_k} p(x_1, x_2, ..., x_n) \, dx_1 dx_2 \dots dx_n \)

\(= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{i \omega_1 x_1}\,e^{i \omega_2 x_2} ... \,e^{i \omega_n x_n} \, p_{\xi_1}(x_1) \,p_{\xi_2}(x_2) ... \, p_{\xi_n}(x_n) \, dx_1 \,dx_2 \dots dx_n \)

\( = \int_{-\infty}^{\infty} dx_1 e^{i \omega_1 x_1}\, p_{\xi_1}(x_1) \int_{-\infty}^{\infty} dx_2 \, e^{i \omega_2 x_2} \, p_{\xi_2}(x_2) \dots \int_{-\infty}^{\infty} dx_n e^{i \omega_n x_n}p_{\xi_n}(x_n) = C_{\xi_1}(\omega_1) C_{\xi_2}(\omega_2) \dots C_{\xi_n}(\omega_n) \)

czyli funkcja charakterystyczna wektora losowego \({\mathbf \xi}\) jest iloczynem funkcji charakterystycznych składowych \(\xi_i\) wektora losowego


                                               \(C(\omega_1, \omega_2, \dots \omega_n)  =  C_{\xi_1}(\omega_1)  C_{\xi_2}(\omega_2)  \dots C_{\xi_n}(\omega_n)   \)


Często bywa tak, że różne zmienne losowe \(\xi_i\) mają ten sam rozkład prawdopodobieństwa \(p(x) = p_{\xi_i}(x)\). Tak jest, jeżeli rzucamy n-razy monetą. Wówczas wynik i-tego rzutu nie zależy od wyniku k-tego rzutu. Mówimy wówczas o zmiennych losowych niezależnych i o identycznym rozkładzie (ang. independent and identically distributed: iid). Relacja powyższa jest często wykorzystywana i ogromne zastosowanie w różnych działach nauki i praktyki, w szczegolności jest podstawą szeregu konkluzji w statystyce.

Próby i schemat Bernoulliego

Próbą Bernoulliego nazywamy dowolne doświadczenie losowe, w którym pytam tylko o dwa możliwe wyniki, będące zdarzeniami przeciwnymi. Jeden z wyników nazywam sukcesem, drugi - porażką. Przykładów takich doświadczeń mamy tysiące. Mogą one być bardziej lub mniej rzeczywiste, część może być bardziej lub mniej losowe. Używam tu nieprecyzyjnych określeń, ale czytelnik będzie wiedział o co mi chodzi po zapoznaniu się z poniższymi przykładami.

W rzucie monetą otrzymam orła czy reszkę; w rzucie kostką otrzymam parzystą lub nieparzystą liczbę oczek; dzwonię do przyjaciela: uzyskam połączenie lub nie; strzelam do tarczy: trafię w koło zawierające co najmniej 8 lub nie; pojadę do kina autobusem: odjedzie autobus planowo (plus minus 5 minut) lub nie; czy w Będzinie 15 marca pierwsze urodzone dziecko będzie chłopcem czy nie; itd.

Nie wszystkie te przykłady są idealną próbą Bernoulliego. Ale często idealizujemy, zakładając że tak jest. Metoda idealizacji jest nagminnie stosowana (o dziwo!) w naukach ścisłych. Dla przykładu, w mechanice klasycznej badamy ruch punktu materialnego. Takim punktem materialnym może być kulka metalowa, kamień, a czasami nawet lokomotywa. Więc my też będziemy zakładali, że nasze przykłady sa idealnymi próbami Bernoulliego.


Teraz przeprowadzamy doświadczenie polegające na n-krotnym powtórzeniu ustalonej próby Bernoulliego, przy założeniu, że wynik każdej próby nie zależy od wyników prób poprzednich i nie wpływa na wyniki prób następnych. Niezależność prób polega na tym, że dowolny wynik jednej próby nie wpływa na prawdopodobieństwo pojawienia się każdego z wyników w następnej próbie. Schematem n-prób Bernoulliego nazywamy ciąg n-niezależnych powtórzeń tej samej próby Widac z powyższych przykłasdów Bernoulliego. W każdej z n prób Bernoulliego, przestrzeń probabilistyczną \(\Omega_i \; (i=1, 2, ... , n) \) rozbijamy na dwa podzbiory \(A_1\) i jego dopełnienie \(A_2\), to znaczy

\(\Omega_i = A_1 \cup A_2, \; \;\ \; A_1 \cap A_2 = \empty\)


Mamy dwa zdarzenia: zdarzenie \(A_1\) które nazwiemy umownie sukcesem i zdarzenie \(A_2\) które nazwiemy umownie porażką. Mamy pojedyńcze doświadczenie E i w wyniku tego doświadczenie możemy otrzymać albo sukces \(A_1\) albo porażkę \(A_2\). Niech prawdopodobieństwo sukcesu wynosi \(p=p_1\) i porażki \(q=p_2\), czyli

\(P(A_1) =p_1 =p, \; \; \; \; \;\;\;\;\; P(A_2) = p_2 = q, \; \;\;\;\;\; \; \; p_1+p_2=p+q=1\)


W pojedyńczej próbie definiujemy zmienną losową \(\xi_i\) w następujący sposób:

\(\xi_i(A_1) = 1\;\)

\(\xi_i(A_2) = 0\;\)

Zauważmy, że prawdopodobieństwo tego że \(\xi_i=1\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A_1\), czyli

\(Pr (\xi_i = 1) = P(A_1) = p_1\;\)

Podobnie, prawdopodobieństwo tego że \(\xi_i=0\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A_2\), czyli

\(Pr (\xi_i = 0) = P(A_2) = p_2 \;\)

Ponieważ zmienna losowa przyjmuje dwie wartości, więc jej dystrybuanta składa się z dwóch schodków:

\(F_{\xi_i}(x) = p_1 \theta(x-1) + p_2 \theta (x-0) = p \theta(x-1) + q\theta (x-0) \)

Pytamy, jakie jest prawdopodobieństwo tego, że w schemacie Bernoulliego o n próbach sukces otrzyma się dokładnie k razy? Albo pytamy równoważnie: jakie jest prawdopodobieństwo tego, że w \(n\) niezależnych doświadczeniach zdarzenie \(A_1\) pojawi się k razy? W schemacie n-prób Bernoulliego, ilość sukcesów jest nową zmienną losową, którą oznaczymy przez \(\eta\), Jakie wartości może przyjmować \(\eta\)? To jest to samo pytanie: ile razy mogę otrzymać orła w n rzutach monetą? Oczywiście orła mogę otrzymać 0 razy, albo 1 raz, może 2 razy albo 3 razy, 4 razy, ...., n razy. Więc matematycznie mogę to sformułować definiując zmienna losową \(\eta\) w następujący sposób:

\(\eta = \xi_1 + \xi_2 + \xi_3 + ... + \xi_n\;\)

Każda ze zmiennych losowych \(\xi_i = (1, 0)\), więc

\(\eta = \{0, 1, 2, ..., n\}\;\)

Pytanie o to jakie jest prawdopodobieństwo tego, że w schemacie Bernoulliego o n próbach otrzymamy k razy sukces jest pytaniem o to jest prawdopodobieństwo tego że zmienna losowa \(\eta = k \). Odpowiedź jest znana od wieków: prawdopodobieństwo to dane jest przez rozkład dwumianowy:


(4)\(P\{\eta = k\} = Pr\{A_1 \; \mbox{zachodzi} \; k \; \mbox{razy}\} = p_n(k) = {n \choose k} \cdot p^k \cdot q^{n-k} = \frac{n!}{k! (n-k)!} \cdot p^k \cdot q^{n-k}\)


Warunek unormowania ma postać

\( \sum_{k=0}^n p_n(k) = \sum_{k=0}^n {n \choose k} \cdot p^k \cdot q^{n-k} =1 \)


Przepiszemy ten rozkład jeszcze raz wprowadzając oznaczenia:

\(k_1=k, \; \;\; \;k_2 = n- k = n -k_1 \;\)

Wówczas

(5)\(P\{\eta = k\} = p_n(k_1, k_2) = \frac{n!}{k_1! \; k_2!} \cdot p_1^{k_1} \cdot p_2^{k_2}\)

Zapis ten nie jest standardowy (i miejscami mylący) ale w wyrażeniu tym \(k_1\) oraz \(k_2\) występują w symetryczny sposób. Pamietajmy też, że

\(p_1+ p_2=1, \; \; \; k_1 +k_2=n \)

Taka symetryczna forma zapisu pozwala na łatwe uogólnienie schematu Bernoulliego. Poniżej przedstawimy uogólniony schemat Bernoulliego który ma zasadnicze znaczenie w problemie zależności lub niezależności zmiennych losowych oraz w teorii procesów stochastycznych.


Ważne przykłady prób i schematów Bernoulliego


1. Rzut monetą (możliwe wyniki: orzeł-reszka) lub kostką do gry (możliwe wyniki: parzysta ilość oczek-nieparzysta ilość oczek)

W tym przypadku

\( p = q = \frac{1}{2} \)

oraz prawdopodobieństwo tego, że w n rzutach wypadnie k razy orzeł (lub parzysta liczba oczek) wynosi

\(P\{\eta = k\} = p_n(k) = \frac{1}{2^n} {n \choose k} \)


2. Losowo ktoś do mnie zadzwoni w przedziale czasowym \([0, T]\). Sukcesem nazwę zdarzenie A polegające na tym, że ktoś do mnie zadzwoni w przedziale \((t_1, t_2) \subset [0, T] \). Prawdopodobieństwo tego, że osoba ta zadzwoni akurat w przedziale \((t_1, t_2) \subset [0, T] \) wynosi

\(p = \frac{t_2 -t_1}{T}\)

Zakładam, że każda chwila czasu jest równouprawniona (co nie jest realnym założeniem, ponieważ ludzie częściej dzwonią około godziny 17 niż około godziny 3 w nocy). To, że ktoś do mnie zadzwoni w przedziale czasowym \([0, T]\) uważam za sukces, a to że nie zadzwoni - za porażkę (w życiu czasami jest odwrotnie). Tak więc

\(P(A)= p = \frac{t_2 -t_1}{T}\)

Natomiast

\(P(A')= q = 1-p = 1 - \frac{t_2 -t_1}{T}\)

Niech w przedziale \([0, T]\) będzie n-rozmów telefonicznych, które następują losowo i całkowicie niezależnie od siebie. Jest to schemat Bernoulliego. Prawdopodobieństwo tego, że k z tych wszystkich n-rozmów będzie w przedziale \((t_1, t_2) \subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).


3. Powyższy przykład, mający wiele mankamantów jak na idealny schemat Bernoulliego, można uogólnić ale przez to uczynić go bardziej abstrakcyjnym. Rozważmy przedział liczbowy \([0, T]\). Może to być przedział czasu. Z przedziału tego wybieram losowo jeden punkt, jedną liczbę. Ponieważ wszystkie liczby są "równo rozłożone", więc prawdopodobieństwo tego, że punkt ten jest w przedziale \((t_1, t_2)\subset [0, T] \) wynosi

\(P(A)= p = \frac{t_2 -t_1}{T}\)

Jeżeli wylosowany punkt jest w tym przedziale, uważam to za sukces. Wybieram teraz losowo n punktów z przedzialu \([0, T]\). Prawdopodobieństwo tego, że k z tych wszystkich n-punktów będzie w przedziale \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).

4. Substancja promieniotwórcza emituje cząstki w losowych chwilach czasu t. W przedziale czasu \([0, T]\) substancja emituje n cząstek. Moment emisji t jest zdarzeniem elementarnym \(\omega=t\) w przestrzenie probalilistycznej \(\Omega = [0, T]\). Zmienną losową jest losowa chwila czasu emisji, \(\xi(\omega) = \xi(t) = t\). Zdarzeniem A nazwę zdarzenie polegające na tym, że moment czasu t emisji cząstki bedzie w przedziale \((t_1, t_2)\subset [0, T] \). Niech prawdopodobieństwo takiego zdarzenia A wynosi

\( p = P\{ t_1 \le t \le t_2 \} = \int_{t_1}^{t_2} \alpha(s) ds\)

przy czym zakładamy, że \(\alpha(s) \ge 0 \) oraz \(\int_{0}^{T} \alpha(s) ds =1\).

Funkcja \(\alpha(t)\) charakteryzuje własności emisyjne substancji promieniotwórczej. I znowu prawdopodobieństwo tego, że k z tych wszystkich n-elektronów zostanie wyemitowanych w przedziale czasu \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).

Zauważmy, że ten przykład zawiera w sobie dwa poprzednie przykłady. Aby to pokazać, wybierzmy postać funkcji \(\alpha(t)=1/T\) dla wszystkich \(t\in [0, T]\). Wówczas

\( p = \int_{t_1}^{t_2} \alpha(s) ds = \int_{t_1}^{t_2} \frac{1}{T} ds = \frac{1}{T} \int_{t_1}^{t_2} ds = \frac{t_2 -t_1}{T}\)

W tym przypadku mówimy o jednostajnym rozkładzie chwil emisji (punktów, liczb). Substancje radioaktywne nie emitują jednostajnie cząstek: liczba emitowanych cząstek maleje wraz z upływem czasu. Gdybyśmy dostarczali bez przerwy żródła emisji, to można by przybliżać taki proces przez jednostajną emisję. Ale dla przykładu emisja cząstek w lampach elektronowych jest w przybliżeniu jednostajna.


5. O schemacie Bernoulliego można mówić we wszelkiego typu procesach urodzin. Proces emisji też może byc traktowany jako proces urodzin (rodzą się cząstki). Jeżeli coś się pojawia losowo i z czasem przybywa tego to jest to proces urodzin.

Niech w przedziale czasu \( [0, T] \) rodzi sie n dzieci. Pawdopodobieństwo tego, że jedno dziecko urodzi się w przedziale \((t_1, t_2)\subset [0, T] \) wynosi

\(P(A)= p = \frac{t_2 -t_1}{T}\)


I znowu prawdopodobieństwo tego, że k z tych wszystkich n-dzieci urodzi sie w przedziale \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\).


Uogólniony schemat Bernoulliego

Z powyższych przykładów widać, że rozkład dwumianowy pojawia się wszędzie tam, gdzie mamy powtarzające się zjawiska, niezależne od siebie. Zamiast rozbicia zbioru \(\Omega\) na dwa podzbiory i rozważać dwa zdarzenia: sukces-porażka, możemy rozbić zbiór \(\Omega\) na kilka podzbiorów i rozważać kilka zdarzeń. Wówczas otrzymujemy uogólniony schemat Bernoulliego. Dla przykładu rozpatrzymy przypadek trzech podzbiorów. Niech w jednym doświadczeniu ( tu w i-tym doświadczeniu)

\(\Omega_i = A_1 \cup A_2 \cup A_3 \; \; \; \; \; \; \; A_i \cap A_j = \empty \; \; (i\ne j), \; \; \; \; \; i, j =1, 2, 3\)

Niech

\(P(A_i) = p_i, \; \; \; \; \; \; \; \; p_1+p_2+p_3=1\)


Powtarzamy doświadczenie n-razy w sposób niezależny, to znaczy zakładamy, że wynik każdej próby nie zależy od wyników prób poprzednich i nie wpływa na wyniki prób następnych. Prawdopodobieństwo tego, że w n-próbach, zdarzenie \(A_1\) pojawi sie \(k_1\)-razy, zdarzenie \(A_2\) pojawi sie \(k_2\)-razy (a stąd zdarzenie \(A_3\) pojawi sie \(k_3\)-razy) wynosi

(6)\( p_n(k_1, k_2, k_3 ) = \frac{n!}{k_1! \, k_2! \, k_3!} \, p_1^{k_1} \cdot p_2^{k_2} \cdot p_3^{k_3} \; \)

przy czym

\(p_1 + p_2 + p_3 = 1, \; \; \; \; \; \; k_1 + k_2 + k_3 = n \; \)


Jest to uogólnienie formuły w Równaniu (5).

Widać teraz, jak łatwo można uogólnić te wzory na przypadek dowolnej liczby zdarzeń \(A_k\) tak aby


\(\Omega_i = A_1 \cup A_2 \dots \cup A_s \; \; \; \; \; \; \; A_i \cap A_j = \empty \; \;(i\ne j), \; \; \; \; \; i, j =1, 2, \dots , s\)


Powróćmy do wzoru (6). Zapis \( p_n(k_1, k_2, k_3 )\;\) jest symetryczny ale mylący, ponieważ \(k_3\) oraz \(p_3\) zależą od pozostałych wielkości. Dlatego przepiszemy relację (6) w postaci

(7)\( Pr\{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}, A_2 \; \mbox{zachodzi} \; k_2 \; \mbox{razy}\} = \frac{n!}{k_1! \, k_2! \, (n-k_1-k_2)!} \, p_1^{k_1} \cdot p_2^{k_2} \cdot [1-(p_1 + p_2)]^{n-k_1 - k_2} \; \)

Z tego wzoru wynika, że dwa zdarzenia: \(\{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}\} \) oraz \(\{A_2 \; \mbox{zachodzi} \; k_2 \;\mbox{razy}\} \) nie są zdarzeniami niezależnymi, to znaczy

(8)\( Pr\{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}, A_2 \; \mbox{zachodzi} \; k_2 \; \mbox{razy}\} \ne Pr\{A_1 \; \mbox{zachodzi} \; k_1 \;\mbox{razy}\} \cdot Pr\{A_2 \; \mbox{zachodzi} \; k_2 \; \mbox{razy}\} \)

gdzie to ostatnie jest rozkładem dwumianowym zdefiniowanym w Równaniu (4). Do tego zagadnienia powrócimy jeszcze. Zobaczymy, że w pewnych granicznych przypadkach, zdarzenia powyższe mogą być niezależne, to znaczy zachodzi równość w (8).

Twierdzenie Poissona i rozkład Poissona

Trzy ostatnie schematy Bernoulliego są podobne. Przykład pierwszy jest inny. Gdzie tkwi ta odmienność. W trzech ostatnich schematach Bernoulliego prawdopodobieństwo p może być łatwo zmieniane poprzez zmianę końców przedziału \((t_1, t_2)\) lub też przez zmianę T. W pierwszym schemacie prawdopodobieństwo p = (1/2) jest "sztywne", nie mozna go zmieniać (abstrahuje tu od zmiany p poprzez fałszowanie monet lub kostek do gry). Rozpatrzymy jeden z granicznych przypadków dla rozkładu dwumianowego.

Twierdzenie Poissona :

Niech

\(n \to \infty\) oraz \(p \to 0\) w taki sposób, aby \(n \cdot p = \lambda = const. \)

Wówczas rozkład dwumianowy dąży do rozkładu

\(\lim_{n \to \infty\ p \to 0} p_n(k) = p(k) = \lim_{n \to \infty\ p \to 0} {n \choose k}p^k (1-p)^{n-k} = e^{-\lambda} \; \frac{\lambda ^k}{k!}\)


Dowód: Ponieważ \(n \cdot p = \lambda \), stąd \(p = \lambda/n \). Wstawimy to do rozkładu dwumianowego.

(9)\(p^k q^{n-k} = p^k (1-p)^{n-k} = \left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k} = \left(\frac{\lambda}{n}\right)^k \frac{\left(1-\frac{\lambda}{n}\right)^{n}}{\left(1-\frac{\lambda}{n}\right)^{k}}\)

Zauważmy, że (reperkusja słynnej relacji Eulera definiującej liczbę e)

\(\lim_{n\to\infty} \left(1 - \frac{\lambda}{n}\right)^n = e^{-\lambda} \; \; \)

oraz

\(\lim_{n\to\infty} \left(1 - \frac{\lambda}{n}\right)^k = 1 \)


Czynnik kombinatoryczny

\({n \choose k} = \frac{n!}{k!(n-k)!} = \frac{1\cdot 2 \cdot 3 \dots (n-k-1) (n-k) (n-k+1) (n-k+2)\dots (n-2) (n-1) n }{k! \; 1 \cdot 2 \cdot 3 \dots (n-k-1)(n-k)}\)


\( = \frac{1}{k!} (n-k+1) (n-k+2) \dots (n-2) (n-1) n = \frac{n^k}{k!} \left( 1- \frac{k-1}{n}\right) \left( 1- \frac{k-2}{n}\right) \dots \left( 1- \frac{2}{n}\right) \left( 1- \frac{1}{n}\right) \)


Wszystkie wyrażenia w nawiasach dążą do 1 gdy \(n \to \infty\). Wyrażenie w liczniku \(n^k\) uprości się z takim samym wyrażeniem w mianowniku Równania (9). W resultacie otrzymujemy tezę twierdzenia, czyli rozkład który nazywa się rozkładem Poissona o parametrze \(\lambda\):


                                                \( Pr\{\eta = k\} = p(k) =  e^{-\lambda} \; \frac{\lambda ^k}{k!}\)

Zmienna losowa o rozkładzie dwumianowym w schemacie Bernoulliego przyjmowała wartości \(\eta = \{0, 1, 2, ..., n\}\). Ponieważ teraz \(n \to \infty\), więc zmienna losowa o rozkładzie Poissona przyjmuje wartości liczb całkowitych nieujemnych, to znaczy

\(\eta = \{0, 1, 2, 3, ...\} = \{k\}_{k=0}^{\infty} \)


W tym przejściu granicznym żądamy, aby prawdopodobieństwa p(A) pojedyńczego zdarzenia A dążyło do zera. Nie jest to możliwe dla rzutu monetą czy kostką. Ale jest to możliwe w pozostałych zaprezentowanych przykładach.

1. Procesy urodzin (rozmowy telefoniczne, punkty na odcinku)

Rozpatrywaliśmy przedział czasu (przedział liczbowy) \([0, T]\) i prawdopodobieństwo

\(p = \frac{t_2 - t_1}{T}\)

Niech \(n \to \infty\) oraz \(T \to \infty\) w taki sposób aby \(\frac{n}{T} = \mu = const. \). Oznacza to, że przedział \([0, T]\) staje się półprostą \([0, \infty)\), ilość punktów w przedziale nieskończonym jest nieskończona (\(n=\infty\)), ale gęstość punktów (ilość punktów w jednostkowym przedziale) jest stała, ta sama, niezależna od tego gdzie przedział jednostkowy jest położony. Można mówić o jednorodnym rozkładzie punktów na półprostej. W sensie matematycznym, oś liczbowa spełnia to założenie, ale na przykład dla rozmów telefonicznych tak nie jest. Są takie okresy czasowe (dnia, roku) kiedy częściej dzwonimy i do nas częściej dzwonią.

Wykorzystajmy definicję parametru \(\lambda = n\cdot p\) w rozkładzie Poissona:

\(\lambda = n \cdot p = n \; \frac{t_2 - t_1}{T} = \frac{n}{N} (t_2 - t_1) = \mu (t_2 - t_1)\)


W odniesieniu do tych (ważnych) przykładów otrzymujemy następującą interpretację rozkładu Poissona: prawdopodobieństwa tego, że k punktów jest w przedziale czasowym \((t_1, t_2)\) określone jest przez wzór

(10)\( Pr\{k \; \mbox{punktow w przedziale} \; (t_1, t_2)\} = e^{-\mu (t_2 - t_1)} \; \frac{[\mu (t_2 - t_1)]^k}{k!}\)

Jeżeli gęstość punktów nie jest stała, wówczas należy dokonać zamiany

(11)\(\lambda = \mu (t_2 - t_1) \to \lambda = \int_{t_1}^{t_2} \mu(s) ds\)

gdzie funkcja \(\mu(t) \ge 0\) charakteryzuje (niejednorodny) rozkład punktów na osi liczbowej. W takim przypadku mówimy o zmiennej losowej o niejednorodnym rozkładzie Poissona. Przykładem może być losowy proces emisji cząstek ze źródła scharakteryzowanego przez funkcję \(\mu(t)\). Wówczas prawdopodobieństwa tego, że k cząstek zostanie wyemitowanych w przedziale czasowym \((t_1, t_2)\) określone jest przez rozkład Poissona o parametrze \(\lambda\) danym przez powyższą całkę w Równaniu (11).

Procesy stochastyczne

Nim podamy formalną definicję procesu stochastycznego, rozważmy przykład który przybliży nam to pojęcie.

Przykład

Cząstka Browna wykonuje ruch losowy. Można sobie wyobrazić, że przeprowadzamy doświadczenie z kolorową cząstką Browna w wodzie i śledzimy jej ruch w przestrzeni. Analizujemy ruch tylko w jednym kierunku poziomym, który oznaczymy jako oś X (rzutujemy ruch trójwymiarowy na jedną oś). Przedstawimy jednowymiarowy ruch takiej cząstki na wykresie. Oś pionowa przedstawia położenie cząstki, oś pozioma - czas. Położenie cząstki w chwili t oznaczymy jako \(\xi(t)\). Możemy tego typu doświadczenie powtarzać wielokrotnie (teoretycznie: nieskończenie wiele razy). W kolejnych doświadczeniach w chwili \(t=0\) cząstka może znajdować się w tym samym miejscu lub nie, to nie ma większego znaczenia. Załóżmy, że znajduje się w tym samym miejscu, nazwanym umownie \(x=0\), czyli warunek początkowy możemy zapisać w postaci \(\xi(0)=0\). Na rysunku przedstawione są wyniki czterech doświadczeń. Przedstawiamy cztery trajektorie cząstki Browna. W kolejnych doświadczeniach otrzymujemy inną trajektorię czastki. Gdybyśmy przeprowadzali coraz to więcej doświadczeń, trajektorie pokrywały by coraz to większą część płaszczyzny.

Cztery realizacje ruchów Browna


Chcemy zbadać własności wyników opisanego powyżej eksperymentu, w szczególności własności ruch cząstki Browna w określonym przedziale czasowym \((0, T], \; T > 0\). Przedstawione na rysunku cztery trajektorie to możliwe realizacje tego procesu. Ustalmy chwilę czasu, np. \(t=400\). Linia pionowa \(t=400\) na rysunku przecina trajektorie w czterech punktach. Te cztery punkty \(\xi(t=400)\) można potraktować jako możliwe wartości zmiennej losowej, którą oznaczymy \(\xi_{400}\). Jeżeli mamy tysiące takich trajektorii, to można standardowymi metodami statystyki obliczyc wartość średnią zmiennej losowej \(\xi_{400}\), jej wariancję, momenty statystyczne wyższego rzędu, itd. Możemy wybrać inną chwilę czasu, np. \(t=800\). Otrzymamy inną zmienną losową, którą oznaczymy \(\xi_{800}\). Możemy tak samo jak dla zmiennej losowej \(\xi_{400} \) obliczyć charakterystyki probabilistyczne zmiennej losowej \(\xi_{800} \). Możemy wybrać każdą inną chwilę czasu \(t=t_k\) otrzymując zmienną losową \(\xi_k\). Czytelnik domyśla się, że otrzymamy coś, co poprzednio nazwaliśmy wektorem losowym

(12)\({\mathbf \xi} =\{\xi_k, k\in (0, T]\}\)

Ale wektor ten ma nieskończenie wiele składowych, ponieważ czas \(t\) zmienia się w sposób ciągły i wskażnik \(k\) przyjmuje nieskończenie wiele wartości w przedziale \((0, T], \; T > 0\). Zagadnienie staje się wyjątkowo skomplikowane, ponieważ musimy badać wektor losowy o nieskończenie wielu składowych. Z rozdziału 4.8 wiemy, że aby taki wektor losowy w pełni scharakteryzować, powinniśmy wyznaczyć jego rozkłady prawdopodobieństwa


\(P_[[:Szablon:\mathbf \xi]](B_1, B_2, ..., B_n) = Pr(\xi_1 \in B_1, \xi_2 \in B_2, \ ..., \xi_n \in B_n) = P(\{\omega: \xi_1(\omega) \in B_1, \xi_2(\omega) \in B_2, \ ..., \xi_n(\omega) \in B_n)\)

lub dystrybuanty

\(F(x_1, x_2, ..., x_n) = Pr(\xi_1 \le x_1, \xi_2 \le x_2, ..., \xi_n \le x_n) \)

lub gęstości rozkładu prawdopodobieństwa

\( p(x_1, x_2, ..., x_n) = \frac{ \partial^n F(x_1, x_2, ..., x_n)}{\partial x_1 \partial x_2 ... \partial x_n} \)

Ale teraz n może zmieniać się od \(n=1\) to nieskończoności, \(n = 1, 2, 3, \dots \).

Zapis w Równaniu (12) oznacza zbór możliwych położeń cząstki Browna w różnych chwilach czasu indeksowanego przez wskaźnik \(k\). Bardziej precyzyjny zapis ma formę


(13)\({\mathbf \xi} =\{\xi(\omega, t), t \in (0, T]\}\)

Jest to przykład procesu stochastycznego. Należy uwypuklić dwa elementy tego procesu:

(1) dla ustalonej chwili czasu \(t=t_k\), wielkość \(\xi(\omega, t_k) = \xi_k(\omega)\) jest zmienna losową, czyli są to możliwe położenia cząstki w tej samej chwili czasu ale dla wielu doświadczeń, czyli różnych \(\omega \in \Omega\); wielkości \(\xi(\omega_1, 5), \; \xi(\omega_2, 5), \; \xi(\omega_3, 5), \; \xi(\omega_4, 5)\) to położenia cząstki w chwili \(t=5\) dla doświadczenia pierwszego, drugiego, trzeciego i czwartego.

(2) jedna trajektoria cząstki to jedna realizacja procesu stochastycznego, to znaczy jest to funkcja czasu dla ustalonego \(\omega \in \Omega\), czyli \(\xi(\omega_1, t)\) są to możliwe położenia cząstki dla pierwszego doświadczenia \((\omega = \omega_1)\) ale różnych chwil czasu.

Różne doświadczenia są indeksoweane przez \(\omega \in \Omega\), różne chwile czasu - przez \(t \in(0, T]\). W ogólności położenie jest indeksowane przez oba wskaźniki czyli \(\xi = \xi(\omega, t)\). Często opuszczany jest wskaźnik \(\omega\) (zwłaszcza przez nie-matematyków) i używa się uproszczonej notacji \(\xi(t)\). Po tym przykładzie możemy podać formalną definicję procesu stochastycznego.

DEFINICJA

Niech \((\Omega, \mathcal F, P)\) będzie przestrzenia probabilistyczną, \({\mathcal T}\) - zbiorem liczb rzeczywistych lub podzbiorem tego zbioru. Zbiór \({\mathcal T}\) będziemy interpretowali jako czas. Przez \(t\) oznaczymy element zbioru \({\mathcal T}\). Niech \((X, \mathcal B)\) będzie przestrzenia fazową. Funkcję

\(\xi: \Omega \times {\mathcal T} \to X\)

nazywamy procesem stochastycznym jeżeli dla każdego \(t\) oraz dla każdej liczby rzeczywistej \(x\) zbiór

\(\{\omega: \xi(\omega, t) \le x\} \in \mathcal F\)

jest zdarzeniem w przestrzeni probabilistycznej \(\Omega\).

Funkcja \(\xi = \xi(\omega, t) \) jest funkcją dwóch zmiennych: \(\omega\) oraz \(t\). Dla każdego ustalonego \(t\) funkcja \(\xi = \xi(\omega, t) \) rozważana jako funkcja argumentu \(\omega\) jest zmienną losową. Dla ustalonego zdarzenia elementarnego \(\omega\) funkcja ta nie jest losowa i nazywa sie realizacją procesu stochastycznego. Zatem proces stochastyczny można traktować jako rodzinę zmiennych losowych indeksowanych "czasem" \(t \in\mathcal T\) albo rodzinę realizacji zależną od parametru \(\omega \in \Omega\) .


UWAGI

1. Często przestrzeń fazową \(X\) nazywa sie przestrzenią stanów. Jeżeli \(\xi(\omega, t) =x\) mówimy, że układ jest w stanie \(x\in X\).

2. Jeżeli \(X\) jest zbiorem liczb rzeczywistych i \(\xi(\omega, t)\) może przyjmować dowolne wartości z tego zbioru, to proces stochastyczny nazywamy typu ciągłego (przez analogię do zmiennej losowej ciągłej).

3. Jeżeli \(X\) jest zbiorem liczb całkowitych lub naturalnych i \(\xi(\omega, t)\) przyjmuje wartości z tego zbioru, to proces stochastyczny nazywamy typu dyskretnego (przez analogię do zmiennej losowej dyskretnej).

4. Jeżeli "czas" jest dyskretny (indeksowany przez liczby całkowite lub naturalne) oraz \(X=R\), to proces stochastyczny nazywamy ciągiem losowym.

5. Jeżeli "czas" jest dyskretny (indeksowany przez liczby całkowite lub naturalne) oraz \(X\) jest zbiorem liczb całkowitych lub naturalnych, to proces stochastyczny nazywamy łańcuchem losowym.



Charakterystyki procesu stochastycznego

Analizując ruch Browna ja przykład procesu stochastycznego zauważyliśmy, że ten proces jest zbiorem nieskończenie wielu zmiennych losowych. Pamiętamy, że dla \(n\)-zmiennych losowych powinniśmy wyznaczyć łączny rozkład prawdopodobieństwa, czyli \(n\)-wymiarowy rozkład. W przypadku zbioru nieskończenie wielu zmienny losowych nie możemy oczekiwać, że określimy nieskończenie wymiarowy rozkład prawdopodobieństwa. Możemy starać się wyznaczyć rozkłady skończenie wymiarowe. Z praktycznego punktu widzenia, kilku-wymiarowe rozkłady są wystarczające. I tak zdefiniujemy rozklad jednowymiarowy procesu stochastycznego \(\xi(t)\):



CHARAKTERYSTYKI JEDNO-WYMIAROWE

1. Jednowymiarowa dystrybuanta

\(F(x, t) = Pr\{\xi(t) \le x\}\)

2. Jednowymiarowa gęstośc prawdopodobieństwa

\(p(x, t) = \frac{\partial F(x, t)}{\partial x}\)

3. prawdopodobieństwo tego, że w chwili \(t\) proces \(\xi(t)\) przyjmuje wartości z przedziału \((x_1, x_2]\) wynosi

\(Pr\{x_1 < \xi(t) \le x_2\} = Pr\{ \xi(t) \in (x_1, x_2]\} = \int_{x_1}^{x_2} p(x, t) \; dx\)

4. Warunek unormowania

\(\int_{-\infty}^{\infty} p(x, t) \; dx = 1 \)

5. Wartość średnia procesu \(\xi(t)\) w chwili \(t\) wynosi

\(m(t) = \langle \xi(t)\rangle = \int_{-\infty}^{\infty} x\; p(x, t) \; dx \)

6. Moment statystyczny k-tego rzędu procesu \(\xi(t)\) w chwili \(t\) wynosi

\(\langle \xi^k(t)\rangle = \int_{-\infty}^{\infty} x^k \; p(x, t) \; dx \)

7. Fluktuacje procesu \(\xi(t)\) w chwili \(t\)

\(\sigma^2(t) = \langle [\xi(t) - m(t)]^2\rangle = \langle [\xi(t) - \langle \xi(t)\rangle]^2\rangle = \langle \xi^2(t)\rangle - \langle \xi(t)\rangle^2 \)


8. Wartość średnia dowolnej funkcji \(g(\xi(t)) \) procesu \(\xi(t)\) w chwili \(t\) wynosi

\(\langle g(\xi(t)) \rangle = \int_{-\infty}^{\infty} g(x) \; p(x, t) \; dx \)

9. Jedno-wymiarowa funkcja charakterystyczna

\(C(\omega, t) = \langle e^{i\omega \xi(t)} \rangle = \int_{-\infty}^{\infty} e^{i\omega x} \; p(x, t) \; dx \)


Uwaga: tutaj \(\omega \in R\) jest dowolną liczbą rzeczywistą i nie ma nic wspólnego ze zdarzeniem elementarnym \(\omega \in \Omega\). Ponieważ historycznie zakorzeniło się oznaczenie dla funkcji charakterystycznej z argumentem \(\omega\), więc mamy jeszcze jeden powóod, aby używać uproszczonego zapisu \(\xi(\omega, t) = \xi(t)\) dla procesów stochastycznych.


CHARAKTERYSTYKI DWU-WYMIAROWE


1. Dwuwymiarowa dystrybuanta

\(F(x_2, t_2; x_1, t_1) = Pr\{\xi(t_2) \le x_2; \xi(t_1) \le x_1\}\)

2. dwuwymiarowa gęstośc prawdopodobieństwa

\(p(x_2, t_2; x_1, t_1) = \frac{\partial^2 F(x_2, t_2; x_1, t_1)}{\partial x_2 \partial x_1}\)

3. prawdopodobieństwo tego, że w chwili \(t_2\) proces \(\xi(t)\) przyjmuje wartości z przedziału \((a, b]\) oraz w chwili \(t_1\) proces \(\xi(t)\) przyjmuje wartości z przedziału \((c, d]\) wynosi

\(Pr\{a < \xi(t_2) \le b; c < \xi(t_1) \le d\} = Pr\{ \xi(t_2) \in (a, b]; \xi(t_1) \in (c,d] \)

\( =\int_{a}^{b} \int_{c}^{d} p(x_2, t_2; x_1, t_1) \; dx_2 \; dx_1 =\int_{a}^{b} dx_2 \int_{c}^{d} dx_1 \; p(x_2, t_2; x_1, t_1) \)


UWAGA: Czasami będziemy używali zapisu jak powyżej, aby uwidocznić w jakich granicach całkujemy po jakich zmiennych.

4. Warunek unormowania


\(\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x_2, t_2; x_1, t_1) dx_2 \; dx_1= 1 \)


5. Funkcja korelacji (funkcja korelacyjna) procesu stochastycznego


\(R(t_2, t_1) =\langle \xi(t_2)\xi(t_1)\rangle = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \; x_2 \; x_1 \;p(x_2, t_2; x_1, t_1)\; dx_2\; dx_1 \)

Jeżeli

\(R(t_2, t_1) =\langle \xi(t_2)\xi(t_1)\rangle = \langle \xi(t_2)\rangle \; \langle\xi(t_1)\rangle \; \;\ \; dla \; \;\ t_2 \ne t_1\)

to proces nazywamy nieskorelowanym.

6. Funkcja kowariancji (kowariancja) procesu stochastycznego


\(C(t_2, t_1) =\langle [\xi(t_2) - m(t_2)][\xi(t_1) -m(t_1)]\rangle = \langle \xi(t_2)\xi(t_1)\rangle -m(t_2) m(t_1) = R(t_2, t_1)-m(t_2) m(t_1) \)


7. Wartość średnia dowolnej funkcji \(g \left(\xi(t_2, \xi(t_1)\right) \) procesu w różnych chwilach czasowych


\(\langle g(\xi(t_2), \xi(t_1) ) \rangle = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x_2, x_1) \;p(x_2, t_2; x_1, t_1)\; dx_2\; dx_1 \)


8. Dwu-wymiarowa funkcja charakterystyczna


\(C(\omega_2, t_2; \omega_1, t_1) = \langle e^{i[\omega_1 \xi(t_1) + \omega_2 \xi(t_2)]} \rangle = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{i(\omega_1 x_1 + \omega_2 x_2)} \;p(x_2, t_2; x_1, t_1)\; dx_2\; dx_1 \)


Oczywiście jeżeli ktoś woli pisać wskaźniki (2, 1) w odwrotnej kolejności (1, 2) to nie jest to zabronione, ale czasami ich uporządkowanie jest ważne, tak jak np. w punkcie 6.


Dodatkowe definicje


1. Przyrosty procesy stochastycznego \(\xi(t)\)


\(\Delta \xi(t_i) = \xi(t_i + \Delta t) - \xi(t_i) \,\)


\( d\xi(t) = \xi(t + dt) - \xi(t) \,\)


2. Proces stochastyczny \(\xi(t)\) nazywamy procesem o przyrostach niezależnych jeżeli dla dowolnych nieprzekrywających się przedziałów

\(t_0 < t_1 < \dots < t_n\)

zmienne losowe

\(\xi(t_0), \; \xi(t_1)-\xi(t_0), \; \xi(t_2)- \xi(t_1), \; \dots, \; \xi(t_n) - \xi(t_{n-1})\)

są niezależne.

Udowodnienie, że dany proces stochastyczny ma przyrosty niezależne jest często trudnym problemem. Czasami intuicyjne rozważania są pomocne w tej kwestii.

3. Procesy stacjonarne

(a) stacjonarność w węższym sensie

Jeżeli proces \(\xi(t)\) oraz proces \(\xi(t+\epsilon) \) mają te same n-wymiarowe rozkłady prawdopodobieństwa


\(p(x_n, t_n; \;x_{n-1}, t_{n-1}; \dots ; x_2, t_2; \;x_1, t_1) = p(x_n, t_n +\epsilon; \;x_{n-1}, t_{n-1}+\epsilon; \dots ; x_2, t_2+\epsilon; \;x_1, t_1+\epsilon)\)


dla dowolnego \(n\) i dowolnego \(\epsilon\).

W szczególności zachodzi


dla n=1:

\(p(x, t) = p(x, t+\epsilon)\;\)

Stąd wynika że 1-wymiarowa gęstość prawdopodobieństwa \(p(x, t) = p(x)\) nie zależy od czasu oraz wartość średnia procesu \(m(t)=\langle \xi(y) \rangle = m \;\) nie zależy od czasu.


dla n=2:

\(p(x_2, t_2; x_1, t_1) = p(x_2, t_2+\epsilon; x_1, t_1+\epsilon)\;\)


Stąd wynika że 2-wymiarowa gęstość prawdopodobieństwa

\(p(x_2, t_2; x_1, t_1)= p(x_2, x_1; t_2- t_1)\;\)

zależy od różnicy czasów \(t_2\) i \(t_1\). To z kolei implikuje że funkcja korelacji

\(R(t_2, t_1) =\langle \xi(t_2)\xi(t_1)\rangle = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \; x_2 \; x_1 \;p(x_2, x_1; t_2- t_1)\; dx_2\; dx_1 = R(t_2 -t_1) \)

oraz


\(\langle \xi(t + \tau)\xi(t)\rangle = R(\tau)\)


(b) stacjonarność w szerszym sensie

Jeżeli wartość średnia procesu

                                 \(m(t)=\langle \xi(y) \rangle = m \) 

nie zależy od czasu oraz funkcja korelacji


                                 \(\langle \xi(t + \tau)\xi(t)\rangle = R(\tau)\) 

zależy od różnicy czasów \(t+ \tau\) i \(t\), wówczas proces stochastyczny \(\xi(t)\) nazywamy stacjonarnym w szerszym sensie. Oczywiście jeżeli \(\xi(t)\) jest stacjonarny w węższym sensie to jest także stacjonarny w szerszym sensie. Odwrotnie nie musi zachodzić.


4. Spektrum (widmo) mocy stacjonarnego procesu stochastycznego


                                 \(S(\omega)  =  \int_{-\infty}^{\infty} e^{i\omega \tau}  \; R(\tau) \; d\tau  \)


Jest to transformata Fouriera funkcji korelacyjnej. Dla procesów niestacjonarnych pojęcie to nie jest dobrze zdefiniowane.

Z optyki wiemy, że kolor światła zależy od częstości promieniowania elektromagnetycznego. Kolor zielony czy fioletowy mają różne widma, ale krzywe widmowe zwykle są rozmyte i mają maksima w otoczeniu częstości odpowiadającej kolorowi zielonemu czy fioletowemu. Widmo światła białego nie ma wyróżnionych częstości. Inaczej mówiąc widmo to nie zależy od częstości. Przez analogię, proces stochastyczny którego widmo mocy nie zależy od częstości nazywamy białym szumem. Z powyższego wzoru można wnioskować, że jeżeli funkcja korelacyjna ma postać


\(\langle \xi(t + \tau)\xi(t)\rangle = R(\tau)= D \delta(\tau)\)


gdzie \(\delta(\tau)\) jest deltą Diraca, to widmo mocy nie zależy od częstości. Jeżeli wartośc średnia \(m(t) = m \) stacjonarnego procesu stochastycznego nie zeruje się, to zamiast funkcji korelacyjnej stosuje sie funkcję kowariancji i wówczas


\( C(t_2, t_1)= C(t_2, t_1) =\langle [\xi(t_2)-m][\xi(t_1)-m]\rangle = D \delta(t_2- t_1)\)

Z własności delty Diraca wiemy, że jeżeli \(t_2\ne t_1\) to \(\delta(t_2- t_1) =0\) czyli

\(C(t_2, t_1) = \langle \xi(t_2)\xi(t_1)\rangle -m^2 = \langle \xi(t_2)\xi(t_1)\rangle - \langle \xi(t_2)\rangle \; \langle\xi(t_1)\rangle =0 \; \; dla \; \; t_2\ne t_1\)

czyli

\(\langle \xi(t_2)\xi(t_1)\rangle = \langle \xi(t_2)\rangle \; \langle\xi(t_1)\rangle \; \; dla \; \; t_2\ne t_1\)


Stąd wnioskujemy, że biały szum jest nieskorelowanym procesem stochastycznym. Czasami mówi się, że jest to \(\delta\)-skorelowany szum. Nie oznacza to, że funkcja kowariancji każdego nieskorelowanego procesu jest dana przez deltę Diraca.


Charakterystyki pochodnej procesu stochastycznego

W teorii procesów stochastcznych istnieje kilka definicji ciągłości. Jest ciągłość prawie wszędzie (prawie na pewno); jest ciągłość według miary (w sensie prawdopodobieństwa) i jest ciągłość średnio-kwadratowa (w sensie średnio-kwadratowym). To ostatnie pojęcie jest dobrze znane fizykom z kursu mechaniki kwantowej.

DEFINICJA 1.

Proces stochastyczny \(\xi(t) \) jest ciągły średnio-kwadratowo w punkcie \(t_0\) jeżeli

\[\mbox{lim}_{h \to 0} \langle [\xi(t_0+h) - \xi(t_0)]^2 \rangle =0 \;\]


Taką definicję można stosować dla procesów stochastcznych dla których istnieje moment statystyczny drugiego rzedu, czyli

\[\langle \xi^2(t) \rangle < \infty\; \]

Oczywiście proces stochastyczny \(\xi(t) \) jest ciągły gdy jest ciągły w każdym punkcie \(t\).

Podobnie mozna zdefiniować pojęcie pochodnej procesu stochastycznego.


DEFINICJA 2.

Proces stochastyczny \(\xi(t) \) jest różniczkowalny średnio-kwadratowo w punkcie \(t_0\) jeżeli istnieje taki proces stochastyczny \(\eta(t)\) że

\[\mbox{lim}_{h \to 0} \langle \left[ \frac{\xi(t_0+h) - \xi(t_0)}{h} - \eta(t_0)\right]^2 \rangle =0 \;\]


Proces \(\eta (t) \,\) nazywa się pochodną procesu \(\xi(t)\;\) i często oznacza jako

\[\eta(t) = \frac{d\xi(t)}{dt} = {\dot \xi}(t) \;\]


Podamy dwie ważne charakterystyki pochodnej procesu stochastycznego.

    • Wartość średnia pochodnej procesu stochastycznego

Jeżeli

\(\langle\xi(t)\rangle = m(t)\)

to

(14)\(\langle {\dot \xi(t)} \rangle = \frac{dm(t)}{dt} = {\dot m}(t) \)

Czyli wartość średnia pochodnej procesu stochastycznego jest równa pochodnej wartości średniej tego procesu.

DOWÓD

\(\langle {\dot \xi(t)} \rangle = \lim_{h\to 0} \langle \frac{\xi(t+h) - \xi(t)}{h}\rangle = \lim_{h\to 0} \frac{1}{h} [\langle \xi(t+h)\rangle - \langle \xi(t)\rangle] = \lim_{h\to 0} \frac{1}{h} [m(t+h) - m(t)] = \frac{d m(t)}{dt} \)

Skorzystaliśmy tu z własności wartości średniej

\[\langle \alpha \xi_1(t) + \beta \xi_2(t) \rangle = \alpha \langle \xi_1(t)\rangle + \beta \langle \xi_2(t) \rangle \]

dla dowlolnych liczb \(\alpha\) i \(\beta\).


    • Funkcja korelacyjna pochodnej procesu stochastycznego


Jeżeli

\(\langle\xi(t_2)\;\xi(t_1)\rangle = R(t_2, t_1)\)

to

(15)\(\langle {\dot \xi(t_2)}{\dot \xi(t_1)} \rangle = \frac{\partial^2 R(t_2, t_1)}{\partial t_2 \, \partial t_1}\)

Czyli funkcja korelacyjna pochodnej procesu stochastycznego jest równa pochodnej mieszanej drugiego rzędu funkcji korelacyjnej procesu stochastycznego.

DOWÓD

\(\langle {\dot \xi(t_2)}{\dot \xi(t_1)} \rangle = \lim_{h\to 0 \ \epsilon \to 0} \; \; \langle \frac{\xi(t_2+h) - \xi(t_2)}{h} \cdot \frac{\xi(t_1+\epsilon) - \xi(t_1)}{\epsilon} \rangle = \lim_{h\to 0 \ \epsilon \to 0} \; \; \frac{1}{ h \epsilon} \langle [\xi(t_2+h) - \xi(t_2)] \cdot [\xi(t_1+\epsilon) - \xi(t_1)] \rangle \)


\( = \lim_{h\to 0 \ \epsilon \to 0} \; \; \frac{1}{ h \epsilon} \left\{ \langle \xi(t_2+h) \xi(t_1+\epsilon)\rangle - \langle \xi(t_2+h) \xi(t_1)\rangle - \langle\xi(t_2) \xi(t_1+\epsilon) \rangle + \langle \xi(t_2) \xi(t_1)] \rangle \right\} \)


\( = \lim_{h\to 0 \ \epsilon \to 0} \; \; \frac{1}{ h \epsilon} \left\{ R(t_2+h, t_1+\epsilon) - R(t_2+h, t_1) - R(t_2, t_1+\epsilon) + R(t_2, t_1) \right\} = \frac{\partial^2 R(t_2, t_1)}{\partial t_2 \,\partial t_1}\)

Ostatnia linia jest definicją pochodnej mieszanej drugiego rzędu funkcji \(R(t_2, t_1)\). Można wykazać, że proces stochastyczny \(\xi(t)\) jest różniczkowalny średnio-kwadratowo w punkcie \(t\) wtedy i tylko wtedy gdy istnieje pochodna mieszana

\(\frac{\partial^2 R(t_2, t_1)}{\partial t_2 \,\partial t_1}\)

dla \(t_2=t\) i \(t_1=t\). Istnienie pochodnej oznacza to, że pochodna przyjmuje skończone wartości dla wszystkich \(t_1=t_2=t\).

Procesy Poissona

Proces urodzin

W rozdziale 5 podaliśmy kilka przykładów schematu Bernoulliego. Przypomnijmy przykład 3:

Rozważamy przedział liczbowy \([0, T]\). Z przedziału tego wybieram losowo jeden punkt, jedną liczbę. Ponieważ wszystkie liczby są "równo rozłożone", więc prawdopodobieństwo tego, że punkt ten jest w przedziale \((t_1, t_2)\subset [0, T] \) wynosi

\(P(A)= p = \frac{t_2 -t_1}{T}\)

Jeżeli wylosowany punkt jest w tym przedziale, uważam to za sukces. Wybieram teraz losowo n punktów z przedzialu \([0, T]\). Prawdopodobieństwo tego, że k z tych wszystkich n-punktów będzie w przedziale \((t_1, t_2)\subset [0, T] \) jest określone przez rozkład dwumianowy \(p_n(k)\). Jeżeli przedział \([0, T]\) będzie przedziałem czasowym, to w przedziale tym mam n losowych chwil czasu oraz \(k \le n\) losowych chwil czasu w przedziale \((t_1, t_2)\subset [0, T] \). Teraz dokonuję takiego samego przejścia granicznego jak w twierdzeniu Poissona

\(n \to \infty, \;\;\; p \to 0 \;\;\;\; \mbox{ale} \;\;n\cdot p = \lambda \)

co udaje mi się osiągnąć gdy założę że \(T \to \infty\) przy czym

\(\mu = \frac{n}{T}\)

jest stałą wielkością i oznacza ilość losowych punktów w jednostkowym przedziale, czyli gęstość losowo wybranych punktów na osi czasu. Przy takim skalowaniu otrzymam wyrażenie na parametr

\(\lambda = \mu (t_2 -t_1) \;\)

Przypiszmy teraz każdej losowej chwili czasu akt narodzin dziecka. Prawdopodobieństwo tego że w przedziale \((t_1, t_2) \) jest k-punktów odpowiada prawdopodobieństwu tego że w przedziale czasu \((t_1, t_2) \) urodziło się k dzieci. W ten sposób otrzymujemy losowy proces urodzin. Elementem losowym jest czas narodzin. Wynikiem jest liczba dzieci \(N(t) \) w pewnej chwili czasu \(t\). Rozkład prawdopodobieństwa jest dany przez rozklad Poissona:

(16)\( Pr\{k \; \mbox{dzieci urodzonych w przedziale} \; (t_1, t_2)\} = Pr\{N(t_2) - N(t_1) =k\} = e^{-\mu (t_2 - t_1)} \; \frac{[\mu (t_2 - t_1)]^k}{k!}\)

Przyjmijmy teraz, że \(t_1 = 0\) i \(t_2 =t\). Wówczas \(t_2 - t_1 =t-0=t\) oraz


(17)\( p_k(t) = Pr\{N(t) = k\} = Pr\{k \; \mbox{dzieci urodzonych w przedziale} \; (0, t)\} =e^{-\mu t} \; \frac{(\mu t)^k}{k!}\)

jest prawdopodobieństwem tego, że w przedziale czasu \((0, t)\) urodziło się k dzieci. Jeżeli liczbę urodzonych dzieci oznaczymy przez \(N(t)\) to otrzymamy proces stochastyczny nazywany procesem urodzin. Założymy, że \(N(0) = 0\). Oczywiście nie jest to bezwzględny wymóg, ale konwencja. Równie dobrze mógłbym badać dowolny inny stan początkowy \(N(0)\). Proces urodzin tak jak każda zmienna losowa o rozkladzie Poissona przyjmuje wartości całkowite nieujemne:

\(N(t) = \{0, 1, 2, \dots\} \)

Jeżeli \(N(t) = k\) to mówimy, że układ jest w stanie \(k\). Takie sformułowanie jest często stosowane przez fizyków, zwłaszcza w kontekście fizyki kwantowej, gdzie stanami mogą być poziomy energetyczne układów kwantowych. Proces urodzin odpowiadałby przejściu z jednego poziomu energetycznego do najbilższego wyższego poziomu energetycznego.Przejście do stanu o niższej energii nie jest opisane procesem urodzin, ale procesem urodzin i smierci.

Z materiału zawartego w Dodatku 20.5 wynika, że przyrosty procesu urodzin \(N(t_2) - N(t_1)\) oraz \(N(t_4) - N(t_3)\) na nieprzekrywających sie przedziałach \((t_1, t_2)\) oraz \((t_3, t_4)\) są zmiennymi losowymi niezależnymi. Jest to bardzo ważna własność procesu urodzin o poissonowskiej statystyce losowych chwil urodzin \(t_i\). Z Równania (16) widać, że przyrost procesu urodzin \(N(t_2) - N(t_1)\) jest stacjonarny, to znaczy, że prawdopodobieństwu tego że w przedziale czasu \((t_1, t_2) \) urodziło się k dzieci zależy od różnicy czasów \(t_2-t_1\), a nie zależy od tego gdzie te chwile czasu \(t_1\) i \(t_2\) są na osi czasu. Jeżeli tak jest, to w ogolnym przypadku mówimy, że proces stochastyczny ma przyrosty stacjonarne. Uwaga: sam proces nie jest stacjonarny ponieważ rozkład jednowymiarowy (17) zależy od czasu ale proces ma stacjonarne przyrosty!

Dwie realizacje procesu Poissona (urodzin)

Na Rysunku pokazano dwie realizacje tego procesu. Realizacje te są niemalejącymi funkcjami czasu i są to funkcje schodkowe o skoku 1, przy czym skok następuje w losowych chwilach czasu \(t_i\) (zakładamy, że tylko jeden osobnik rodzi się w danym momencie czasu \(t_i\) i w rzeczywistości jest to prawda abstrahując od kwestii spornych przy cesarskim cięciu w przypadku wielodzietnych ciąży). Funkcje schodkowe można zapisać przy pomocy funkcji teta Heaviside'a, więc proces urodzin \(N(t)\) można przedstawić w elegenckiej matematycznej postaci:

(18)\(N(t) = \sum_{i=1}^{\infty} \theta(t-t_i)\)

Aby otrzymać jedną realizację procesu urodzin w przedziale czasu \([0, T]\), należy losowo wybrać w tym przedziale punkty \(t_i\) które są momentami urodzenia. Mówimy, że punkty te mają statystykę Poissona, mając na myśli ich jednorodne (ale losowe) rozłożenie na osi czasu, patrz Rozdział 6.

Podsumowując, możemy to wszystko zebrać w matematyczną definicję procesu stochastycznego Poissona (lub poissonowskiego procesu urodzin).


DEFINICJA

Procesem Poissona \(N(t)\) nazywamy proces stochastyczny o następujących wlasnościach:

  1. Przestrzenią stanów jest zbiór liczb całkowitych nieujemnych, \(X=\{k\}_0^{\infty}\; = \{0, 1, 2, \dots \}\)
  2. \(N(0) = 0 \; \) (proces startujący z zera)
  3. \(N(t_2) - N(t_1)\; \) jest liczbą punktów w przedziale \((t_1, t_2)\)
  4. \(N(t)\) ma stacjonarne i niezależne przyrosty na nieprzekrywających się przedziałach o rozkładzie prawdopodobieństwa
(19)\( Pr\{N(t_2) - N(t_1) =k\} = e^{-\mu (t_2 - t_1)} \; \frac{[\mu (t_2 - t_1)]^k}{k!}\)


WŁASNOŚCI PROCESU POISSONA


1. Wartość średnia


\(m(t) = \langle N(t) \rangle = \mu t\)

Z tej relacji mamy interpretację parametru

\(\mu = \frac{\langle N(t) \rangle}{t} \)

Parametr \(\mu\) to średnia liczba punktów w jednostce czasu lub średnia liczba urodzeń w jednostce czasu. Ten parametr może być oszacowany z danych statystycznych czy też z danych doświadczalnych.


2. Moment statystyczny drugiego rzędu

\(\langle N^2(t) \rangle = \mu^2 t^2 + \mu t\; \)

3. Stąd mamy relację dla fluktuacji procesu

\(\sigma^2(t) = \langle N^2(t) \rangle - \langle N(t) \rangle^2 = \mu t \; \)

4. Stąd mamy średnio-kwadratowe odchylenie

\(\sigma(t) = \sqrt{\mu t} \; \)

Ważna jest interpretacja tego wyniku: Fluktuacje procesu narastają liniowo w czasie. To oznacza, że im dłuższy jest czas tym odchylenia od wartości średniej mogą byc coraz większe. Można przeprowadzić następujące dewagacje:

Badam proces urodzin i przeprowadzam szereg symulacji komputerowych tego procesu. Otrzymuję wiele realizacji procesu urodzin. Z analizy tych realizacji mogę metodami statystyki otrzymać wartość średnią procesu. Oczekuję (coś to ma wspolnego z warościa oczekiwaną czyli wartościa średnią), że wiele realizacji bedzie przebiegać w pobliżu wartości średniej. Owszem to prawda, ale jednocześnie pojawiają mi się realizacje które daleko odbiegają od wartości średniej. Im dłuższy jest ten czas, tym większe odchylenia od wartości średniej mogę zaobserwować. Jest to własność, która w deterministycznym świecie nie występuje (deterministyczny świat nie jest światem rzeczywistym, jest jego idealizacją, bardziej lub mniej adekwatną). Do tego zagadnienia jeszcze powrócę, gdy będę rozważać procesy którym odpowiadaja zmienne losowe typu ciągłego.

Oczywiście powyższe relacje można (mutatis mutandis) podać dla przyrostów procesu Poissona:


1. Wartość średnia przyrostów procesu Poissona


\(\langle N(t_2) - N(t_1)\rangle = \mu (t_2-t_1)\)


2. Moment statystyczny drugiego rzędu dla przyrostów procesu Possona

\(\langle [N(t_2) - N(t_1)]^2 \rangle = \mu^2 (t_2-t_1)^2 + \mu (t_2-t_1) \; \)


3. Funkcja korelacji procesu Poissona

\(R(t_2, t_1) = \langle N(t_2) N(t_1)\rangle = \mu^2 \;t_2 \;t_1 + \mu \; \mbox{min}(t_2, t_1)= \langle N(t_2)\rangle\langle N(t_1)\rangle+ \mu \; \mbox{min}(t_2, t_1)\)

gdzie funkcja dwóch zmiennych \(\mbox{min}(x, y) \;\) oznacza wartość mniejszej liczby z dwóch liczb \(x\) i \(y\):

\( \mbox{min} (x, y) = \left \{ {{x \; \; \mbox{if}\; \; x < y} \atop {y \; \; \mbox{if} \; \; y<x}} \right.\)

Z powyższych relacji wynika, że proces urodzin jest procesem skorelowanym.


Rozkład prawdopodobieństwa Poissona (17) spełnia nastepujący układ równań ewolucji (ang. master equations), patrz RYSUNEK,

(20)\(\frac{dp_0(t)}{dt} = -\mu p_0(t), \; \; \; p_0(0) = 1 \)
(21)\( \frac{dp_k(t)}{dt} = \mu p_{k-1}(t) -\mu p_k(t), \; \; \; p_k(0) = 0, \; \; \; k=1, 2, 3, \dots \)


RYSUNEK 

Słuszność tego układu równań można sprawdzić bezpośrednim rachunkiem, z jednej strony różniczkując wyrażenie dla \(p_k(t)\), z drugiej strony wstawiając wrażenia na \(p_k(t)\) oraz \(p_{k-1}(t)\). Równania te mają też jasną interpretację. W tym celu spojrzymy nieco inaczej na nasz proces. Mówimy, że układ jest w stanie \(k\) jeżeli

\(N(t) =k\;\)

Stan układu jest określony przez możliwe wartości populacji w danej chwili czasu, \(k=0, 1, 2, ....\). Zmiana stanu k układu w danej chwili czasu, opisywana przez tempo zmian czyli pochodną \(dp_k(t)/dt\), może zachodzić z dwóch powodów: albo stan k pojawia się ze stanu (k-1) ponieważ następuje akt narodzin, albo stan k znika i uklad przechodzi do stanu k+1 (ponieważ następuje akt narodzin). W wyrażeniu (21) wyraz \(\mu p_{k-1}(t)\;\) wchodzi ze znakiem dodatnim ponieważ stan k pojawia się ze stanu k-1; wyraz \(\mu p_{k}(t)\;\) wchodzi ze znakiem ujemnym ponieważ stan k znika i układ przechodzi w stan k+1 (ponieważ ktos sie urodził). Jest to nic innego jak równanie bilansu.

Proces urodzin i śmierci

W procesie urodzin, liczba osobników nie maleje. W rzeczywistości zachodzą też procesy śmierci, czyli ubytek osobników. Proces ten można uwględnić w relacji (28) w następujący sposób:

(22)\(N(t) = N(0) + \sum_{i} \xi_i \theta (t-t_i)\; \)

gdzie zmienne losowe \(\xi_i=\{1, -1\}\) są niezależne między sobą i są o identycznych rozkładach prawdopodobieństa:

\(P(\xi_i = 1) = p, \; \; \; P(\xi_i = -1) = q, \; \; \; p+q=1\)

Wartość zmiennej losowej \(\xi_i = 1\) odpowiada narodzinom (dodajemy jeden schodek), natomiast wartość zmiennej losowej \(\xi_i = -1\) odpowiada śmierci (odejmujemy jeden schodek). Jeżeli \(p=q=1/2\) to statystycznie mamy równowagę pomiędzy procesem urodzin i śmierci; jeżeli \(p > q\) to populacja powinna rozwijać się; jeżeli \(p < q\) to populacja powinna z czasem zamierać. W Równaniu (22) dodaliśmy składnik \(N(0)\), czyli stan początkowy populacji. Gdyby w chwili początkowej \(N(0)=0\), to pojawiłby się problem, gdyby w pierwszym kroku \(\xi_1=-1\), czyli powinien nastąpić akt śmierci. Ależ któż to miałby umrzeć, jeżeli nie ma żadnych osobników gdy \(N(0)=0\).

Proces urodzin i śmierci dobrze jest modelować i analizować opierając się na równaniach ewolucji dla rozkładu prawdopodobieństwa. Aby takie równania otrzymać, można uogólnić wywody przedstawione w poprzednim rozdziale 8.1. W "porządnej" teorii ogólniejsze równania ewolucji są wyprowadzane ściśle bazując na własnościach np. procesów Markowa. W procesie urodzin i śmierci zmiana stanu k następuje z 4 powodów (patrz RYSUNEK)

  1. stan k pojawia się ze stanu (k-1) ponieważ ktoś się urodził (przejście to opisuje parametr \(\lambda_{k-1}\) który w ogólnym przypadku zależy od stanu \(k-1\))
  2. stan k znika przechodząc w stan (k+1) ponieważ ktoś się urodził (przejście to opisuje parametr \(\lambda_{k}\) który w ogólnym przypadku zależy od stanu \(k\))
  3. stan k pojawia się ze stanu (k+1) ponieważ ktoś umarł (przejście to opisuje parametr \(\mu_{k+1}\) )
  4. stan k znika przechodząc w stan (k-1) ponieważ ktoś umarł (przejście to opisuje parametr \(\mu_{k}\) )

Równania bilansu przyjmują postać


(23)\[\frac{dp_0(t)}{dt} =\mu_1 p_1(t)-\lambda_0 p_0(t)\]


(24)\[\frac{dp_k(t)}{dt} =\lambda_{k-1} p_{k-1}(t)-\lambda_k p_k(t)+\mu_{k+1} p_{k+1}(t)-\mu_k p_k(t), \; \; \; \; \; k=1, 2, 3, \dots\]

W ogólnym przypadku, dla dowolnej zależności parametrów \(\lambda_k\) i \(\mu_k\) od \(k\), nie są znane rozwiązania tego układu równań. Szczególne przypadki są analizowane w książce: N. S. Goel and N Richter-Dyn, Stochastic models in biology (1974, Academic Press, New York).

Jeżeli \(N(t) = k\) to mówimy, że układ jest w stanie \(k\). Stanem tym może być liczba populacji, numer węzła sieci krystalicznej, stan energetyczny układu kwantowego. Powyższy proces urodzin i śmierci opisuje przejścia tylko pomiędzy sąsiednimi stanami \((k-1) - k - (k+1)\). Przejścia pomiędzy stanem \(k\) a stanem \((k+2)\) czy \((k-2)\) lu dalszymi nie są uwzględnione w tym opisie. W terminologi urodzin i śmierci, wyklucza się przypadki urodzin i/lub śmierci jednocześnie 2 osobników w tej samej chwili czasu.

Uogólnienia procesu Poissona

Uogólnienia procesu Poissona można konstruować wieloma metodami. Przykład jednej z metod jest przedstawiony w Rozdziale 8.2, we wzorze (22). Wzór ten można łatwo uogólnić dla przypadków gdy:

  • zmiany stanów mogą zachodzic z dowolną amplitudą (w procesie urodzin możliwe były zmiany dyskretne o 1, w procesie urodzin i śmierci możliwe były dyskretne zmiany o 1 lub -1)
  • amplituda zmian może być deterministyczna lub losowa (w procesie urodzin zmiana o 1 była deterministyczna, w procesie urodzin i śmierci zmiany były losowe o 1 lub -1)

Uogólnienie procesu Poissona będzie określone przez formułę

(25)\(N(t) = \sum_{i} a_i \theta (t-t_i) -\lambda \langle a_i\rangle t\; \)

Proces ten zdefiniowalismy tak, aby jego wartość średnia \(\langle N(t)\rangle = 0\).

Zmienne losowe \( \{a_i\} \;\) są niezależne między sobą i są o identycznym (wspólnym, takim samym) rozkładzie prawdopodobieństwa określonym przez gęstość prawdopodobieństwa \(\rho (a)\;\). Zmienne losowe \( \{a_i\} \;\) mogą być dyskretne lub ciągłe, ich rozkład może być symetryczny lub niesymetryczny. Jeżeli jest symetryczny to gęstość prawdopodobieństwa \(\rho (a) =\rho (-a) \;\) jest funkcją parzystą (symetryczną ze względu na transformację \(a \to -a\)). W tym przypadku wartość średnia \(\langle a_i\rangle = 0\;\). W przypadku symetrycznej gęstości prawdopodobieństwa \(\rho (a)\;\), przyrosty procesu mogą być zarówno dodatnie jak i ujemne z tym samym prawdopodobieństwem. Przykładem może być gęstość prawdopodobieństwa


(26)\(\rho(a) = \frac{1}{2} e^{-|a|} \)

Jest ona przedstawiona na Rysunku. Wnioskujemy, że bardziej prawdopodobne są małe przyrosty procesu (dla małych wartości \(a_i\;\), gęstość jest duża, a całka z gęstości po danym przedziale jest prawdopodobieństwem tego że zmienna losowa \(a_i\;\) ma wartości z tego przedziału). Duże przyrosty procesu są mało prawdopodobne (dla dużych wartości \(a_i\;\), gęstość jest mała)

Jeżeli gęstość prawdopodobieństwa jest asymetryczna jak w poniższym przykładzie

(27)\(\rho(a) = \theta(a) e^{-a} \;\)

to możliwe są tylko dodatnie przyrosty procesu \(N(t)\), ponieważ dla ujemnych \(a_i\), gęstość prawdopodobieństwa jest zero.

Powyższa konstrukcja procesu \(N(t)\) i przytoczone przykłady pokazują, że mamy nieskończenie wiele procesów Poissona. Problemem jest to, które mogą modelować rzeczywiste zjawiska. Ale to już inny problem.

Poissonowski ciąg impulsów: biały szum Poissona

Zwykle pod pojęciem szumu kryje się stacjonarny proces stochastyczny o zerowej wartości średniej. Mimo, że średnio jest zerowy, jego wpływ może być potężny. Proces urodzin Poissona nie jest ani stacjonarny ani o zerowej wartości średniej. Uzyskanie wartości średniej nie jest problemem. Zawsze możemy zdefiniować nowy proces będący różnicą procesu i jego wartością średnią:

\({\tilde N}(t) = N(t) - m(t) = N(t) - \mu t\)

Wówczas

\(\langle {\tilde N}(t) \rangle = 0\)

Ale ciągle nie jest to proces stacjonarny. z kolei (formalna) pochodna tego procesu

(28)\(z(t) = \frac{d N(t)}{dt} = \sum_{i=1}^{\infty} \delta(t-t_i)\)

jest procesem stacjonarnym. Proces ten nazywa się poissonowskim ciągiem impulsów. Jedna z jego realizacji jest przedstawiona na Rysunku. Pionowe linie oznaczają impuls o nieskończonej amplitudzie. Nie jest to możliwe w realnym świecie, ale taka idealizacja jest usprawiedliwiona w przypadku dużych (ale skończonych) amplitud które bardzo krótko działają. Słowo "dużych" trzeba odnieść do innych wielkości układu. Podobnie jest z wyrażeniem "bardzo krótko". To musi być "bardzo krótko" w porównaniu z innymi skalami czasu w układzie. Każdy konkretny układ wymaga analizy skal czasu, energii, itp. Nie zawsze jest to proste zadanie, aby takie skale znaleźć.

Korzystając z wyników zawartych w Rozdziale 7.2 możemy obliczyć wsartość średnią procesu \(z(t)\) oraz jego funkcje korelacyjną.

Wartość średnia

(29)\(\langle z(t)\rangle = \langle \frac{dN(t)}{dt} \rangle= \frac{d \langle N(t)\rangle}{dt} = \frac{d}{dt} \mu t = \mu \)

Funkcja korelacyjna

Aby wyznaczyć funkcję korelacyjną procesu \(z(t)\), należy obliczyć pochodną mieszaną drugiego rzędu funkcji korelacyjnej procesu \(N(t)\). Funkcja korelacji procesu Poissona ma postać (patrz Rozdział 8.1)

\[R(t_2, t_1) = \langle N(t_2) N(t_1)\rangle = \mu^2 \;t_2 \;t_1 + \mu \; \mbox{min}(t_2, t_1)\]

gdzie funkcja dwóch zmiennych \(\mbox{min}(x, y) \;\) oznacza wartość mniejszej liczby z dwóch liczb \(x\) i \(y\):

\( \mbox{min} (x, y) = \left \{ {{x \; \; \mbox{if}\; \; x < y} \atop {y \; \; \mbox{if} \; \; y<x}} \right.\)


Obliczenie pochodnej mieszanej jest trudnm zadaniem dla studentów, dlatego przedstawie rachunki poniżej. Dobrze jest przedstawić funkcję

\(\mbox{min}(t_2, t_1) \;\) w innej postaci, a mianowicie


\(\mbox{min}(t_2, t_1) = t_2 \theta(t_1 -t_2) + t_1 \theta (t_2 -t_1)\;\)


gdzie \(\theta(t)\;\) jest funkcją schodkowa Heaviside'a. Pochodna (dystrybucyjna) tej funkcji jest deltą Diraca,

\(\frac{d\theta(t)}{dt} = \delta (t)\)

Obliczmy zatem pochodną cząstkową

\(\frac{\partial \mbox{min}(t_2, t_1)}{\partial t_1} = t_2 \delta(t_1 -t_2) + \theta (t_2 -t_1) -t_1 \delta(t_2 -t_1) = \theta (t_2 -t_1)\;\)


ponieważ w sensie dystrybucyjnym zachodzi równość

\( t_2 \delta(t_1 -t_2) = t_1 \delta(t_2 -t_1)\;\)

Obliczenie pochodnej wzgledem \(t_2 \) jest łatwe

\(\frac{\partial^2 \mbox{min}(t_2, t_1)}{\partial t_2\,\partial t_1} = \frac{\partial \theta (t_2 -t_1)}{\partial t_2} = \delta(t_2 -t_1)\;\)


Możemy teraz wyznaczyć funkcję korelacyjną procesu \(z(t)\):

(30)\(\langle z(t_2) z(t_1)\rangle = \frac{\partial^2 R(t_2, t_1)}{\partial t_2\,\partial t_1} = \mu^2 + \mu \delta(t_2-t_1)\)

Wartość średnia procesu \(z(t)\) jest niezalezna od czasu, natomiast funkcja korelacyjna zależy tylko od różnicy czasów \(t_2-t_1\), a ze względu na własności delty Diraca mozna powiedzieć, że funkcja korelacyjna zależy tylko od bezwzględnej wartości różnicy czasów \(|t_2-t_1|\). Z tych dwóch własności wnioskujemy, że \(z(t)\) jest procesem stacjonarnym. Ponieważ jest on \(\delta\)-skorelowany, więc nazywamy go białym szumem poissonowskim.

Można zdefiniować biały szum poissonowski o zerowej wartości średniej:

\(y(t) = z(t) - \mu \;\)

Wówczas

\(\langle y(t)\rangle =0, \; \; \; \langle y(t_2)y(t_1) \rangle = \mu \delta(t_2-t_1)\)


Z uogólnionych procesów Poissona także można otrzymać biały szum który jest ich pochodną ze względu na czas.

Szum dychotomiczny

Błądzenie przypadkowe

W Rozdziale 6 omawialiśmy zmienne losowe Poissona, a w Rozdziale 8 omawialiśmy procesy Poissona, które są granicznym przypadkiem pewnej klasy schematów Bernoulliego: liczba niezależnych doświadczeń (prób) \(n\to \infty\) oraz prawdopodobieństwo sukcesu \(P(A_1) = p\) w jednym doświadczeniu zmierza do zera, \(p \to 0\), ale przejście graniczne jest dokonywane w taki sposób aby iloczyn \(n\cdot p = const. =\lambda\). Przykłady możliwe do realizowania takiego przejścia granicznego podaliśmy w Rozdziale 8. Tego typu przejścia granicznego nie mozna stosowac do doświadczen typu rzut monetą, ponieważ prawdopodobieństwo sukcesu \(P(A_1) = p\) w jednym doświadczeniu jest ustalone i nie może zmierzać do zera.

W następnym rozdziale podamy przykład innego przejścia granicznego prowadzącego do zupełnie nowej rodziny procesów stochastycznych, do procesów Wienera. Zarówno procesy Poissona jak i procesy Wienera stanowią podstawę wszelkich innych procesów stochastycznych. Można powiedzieć, że dowolny proces stochastyczny ma jakiś związek albo z procesem Poissona albo z procesem Wienera lub ich uogólnieniami.

Nim skonstruujemy proces Wienera, zdefiniujmy proces bładzenia przypadkowego. Rozpatrzymy raz jeszcze schemat Bernoulliego podobny do rzutu monetą zakładając możliwość posiadania sfałszowanej monety po to, aby prawdopodobieństwo wylosowania orła \(P(A_1)=p\) mogło być inne niż prawdopodobieństwo wylosowania reszki math>P(A_2)=q</math>.

 RYSUNEK


Zdefinjujemy proces błądzenia przypadkowego w następujący sposób. Rozważmy nieskończoną jednowymiarową sieć (łańcuch) o strukturze periodycznej, o okresie \(L\). Węzły sieci oznaczymy liczbami całkowitymi \(\{\dots, -2, -1, 0, 1, 2, \dots \}\). Odległość między węzłami wynosi \(L\). Niech cząstka w chwili początkowej \(t=0\) znajduje się w węźle oznaczonym umownie \(r=0\). Cząstka co pewien ustalony czas \(T\) wykonuje krok albo w prawo (zdarzenie \(A_1\)) albo w lewo (zdarzenie \(A_2\)). Niech prawdopodobieństwo kroku w prawo wynosi \(p\), a kroku w lewo \(q\), czyli

\(P(A_1) =p, \; \; \; \; \;\;\;\;\; P(A_2) = q, \; \;\;\;\;\; \; \;p+q=1\)


Pytamy, jakie jest prawdopodobieństwo tego, że po \(n\) krokach cząstka jest w węźle o numerze \(r\). Czas \(t\) po \(n\)-krokach wynosi

\(t=nT\;\)

Dlatego czas \(t\) można utożsamiać z ilością kroków \(n\). Położenie w \(r\)-tym węźle wynosi

\(x=rL\;\)

Dlatego położenie \(x\) czas można utożsamiać z numerem węzła \(r\).

czyli położenie cząstki \(\xi(t)\; \) w chwili \(t\) zapiszemy jako


\(\xi(t) = \xi(nT)= x = r L \;\).


Załóżmy, że w \(n\)-krokach, \(k\)-kroków było w prawo (więc cząstka przesunęła się w prawo na odległość \(kL\)), a pozostałe \((n-k)\)-kroków było w lewo (więc cząstka przesunęła się w lewo na odległość \((n-k)L\)). Zatem położenie po \(n\)-krokach wynosi

\(x = k L - (n-k) L = (2k-n)l = rL, \; \; \; \; k=0, 1, 2, \dots, n\).

Stąd otrzymujemy relację

\(r=2k -n \;\;\; \mbox{lub} \;\;\; k=\frac{n+k}{2}, \; \; \;\ \; r= -n, -(n-1), -(n-2), \dots, (n-2), (n-1), n\)

Zauważmy, że tak sformułowany proces błądzenia przypadkowego jest schematem Bernoulliego o n próbach i k sukcesach. Więc prawdopodobieństwo tego, że po \(n\) krokach cząstka jest w węźle o numerze \(r\) dane jest przez rozkład dwumianowy:


(31)\( Pr\{\xi(nT) =rL=(2k-n)L\} = {n \choose k} \cdot p^k \cdot q^{n-k} = \frac{n!}{k! (n-k)!} \cdot p^k \cdot q^{n-k} \;\)


W równaniu tym należy wstawić wyrażenia

\(k=\frac{n+r}{2} \;\;\; \mbox{oraz} \;\;\; n - k=\frac{n-r}{2}\)

Wówczas otrzymamy prawdopodobieństwo \(p_n(r)\) tego, że po n-krokach cząstka jest w węźle r:


(32)\( p_n(r) = Pr\{\xi(nT) =rL\} = {n \choose \frac{n+r}{2}} \cdot p^{\frac{n+r}{2}} \cdot q^{\frac{n-r}{2}} \;\)


Warunek unormowania ma postać

\(\sum_{r=-n}^n p_n(r) = 1\;\)


Jeżeli proces startuje z zerowego węzła, to znaczy \(\xi(0) = 0\), to


(33)\(p_0(0) = 1, \; \; \; p_0(r) = 0 \; \;\ \mbox{dla} \; \; \; r \ne 0\)


To są warunki początkowe dla prawdopodobieństw \(p_n(r) \;\).

Prawdopodobieństwa (32) spełniają równanie ewolucji (master equation) w postaci


(34)\(p_{n+1}(r) = p\cdot p_{n}(r-1) + q \cdot p_{n}(r+1) \;\)


Należy je następująco interpretować: Z lewej strony równania mamy prawdopodobieństwa tego, że w chwili \((n+1)\) cząstka jest w położeniu \(r\). Z prawej strony równania mamy prawdopodobieństwa tego, że w chwili \(n\) cząstka była w położeniu \((r-1)\) i w następnym kroku z prawdopodobieństwem \(p\) przeskoczyła w prawo, czyli nastąpiło przejście \((r-1) \to r\) lub cząstka była w położeniu \((r+1)\) i w następnym kroku z prawdopodobieństwem \(q\) przeskoczyła w lewo, czyli nastąpiło przejście \((r+1) \to r\).


Ponieważ znamy prawdopodobieństwa (32) lub równoważnie (31), możemy wyznaczyć momenty statystyczne dla błądzenia przypadkowego. Wygodniej jest wykowywac obliczenia stosując Równanie (31).

Średnie położenie

Wartość średnia procesu \(\xi(t)\), czyli wartość średnia położenia po \(n\)-krokach wynosi (patrz Równanie (31) i Równanie (32))

(35)\(m(t) = \langle \xi(t)\rangle = \langle \xi(nT)\rangle = \sum_{r=-n}^n rL \; p_n(r) = \sum_{k=0}^n (2k-n)L \; {n \choose k} \cdot p^k \cdot q^{n-k} = nL\left[2p-1\right] \;\)


Średnio-kwadratowe odchylenie

Proces Wienera -proces dyfuzji

Biały szum gaussowski

Procesy Levy'ego

Stochastyczne równania różniczkowe

Równanie Kramersa-Moyala

Proste i odwrotne równanie Kołmogorowa. Równanie Fokkera-Plancka

Równanie Ito a proces dyfuzji

Równanie Ito i równanie Stratonowicza

Twierdzenie Ito o różniczce funkcji procesu stochastycznego

Przykłady zastosowań równań stochastycznych w ekonomii

Geometryczny proces Wienera

Dodatek matematyczny

1. Elementy teorii dystrybucji: delta Diraca, funkcja schodkowa i jej pochodna , różniczkowanie funkcji nieciągłej


2. Podstawowe tw. w teorii całki Riemanna , różniczkowanie całki wz. górnej granicy całkowania


3. Transformacja Fouriera


4. Momenty statystyczne dla rozkładu Poissona

5. Twierdzenie Poissona dla uogólnionych schematów Bernoulliego