PIZL:Elementy teorii prawdopodobieństa

Z Skrypty dla studentów Ekonofizyki UPGOW

Kl.png
Ue.png




Spis treści

ELEMENTY TEORII PRAWDOPODOBIEŃSTWA

Zdarzenia, procesy i zjawiska losowe (przypadkowe, stochastyczne) opisywane są przez teorię prawdopodobieństwa. W odróżnieniu od procesów deterministycznych, nie można jednoznacznie przewidywać wyników zdarzeń przypadkowych i ewolucji procesów losowych. Losowość opisujemy za pomocą prawdopodobieństwa zajścia określonych zdarzeń. Potocznie rozumiemy, co to znaczy, że istnieje duże prawdobodobieństo wystąpienia burzy albo małe prawdopodobieństwa spotkania znajomego, który wyjechał do ciepłych krajów. Teoria prawdopodobieństwa stwarza możliwości nadania tym zdaniom ilościowego miernika. Nie jest to łatwa teoria do zastosowania w praktyce. Obliczenie prawdopodobieństwa niektórych zdarzeń czy zjawisk jest czasami zadaniem niesłýchanie trudnym czy wręcz niewykonalnym. Często podwaliną dla takich obliczeń jest kombinatoryka. A każdy matematyk powie nam, że to jest naprawdę trudny dział matematyki. Dodatkowym kłopotem w teorii procesów losowych jest to, że jest on nieskończenie wymiarowym wektorem losowym. Jeżeli coś jest nieskończenie wymiarowe, to nasza intuicja nabyta dla skończenie wymiarowego przypadku może zawodzić. Dlatego zaczniemy od najprostszego przypadku, przypadku jednowymiarowego. Później zbadamy przypadek dwuwymiarowy. Uogólnienia dla przypadków wielowymiarowych nie powinny nastręczać wiekszych kłopotów.

Przestrzeń probabilistyczna

Teoria prawdopodobieństwa bazuje, jak każda teoria matematyczna, na odpowiedniej przestrzeni. Matematycy analizowali i nadal analizują dziesiątki przestrzeni, jak na przykład przestrzenie liczbowe, wektorowe, topologiczne, unormowane, unitarne, metryczne, Banacha, Frecheta, Hausdorffa, Sobolewa, itd, itp.

Dla przykładu, dla teorii funkcji bardzo użyteczna jest przestrzeń metryczna. Przestrzeń metryczna jest takim zbiorem \( X \), w którym można zdefiniować odległość \( d(x, y)\, \) między dwoma jej elementami \( x \in X \) i \( y \in X \). Odleglość jest funkcją dwóch zmiennych \( x \) i \( y \) oraz posiada kilka charakterystycznych cech, np. odległość nie może byc ujemna. Jeżeli zdefiniujemy odległość w zbiorze \( X \), wówczas możemy w tym zbiorze określić zbieżność ciągów i wprowadzić pojęcie ciągłości funkcji. Możemy też zdefiniować pojęcie pochodnej funkcji i całki oznaczonej. Możemy dokonywać wielu innych operacji na funkcjach. Widać z tego przykładu, że pojęcie metryki jest bardzo użyteczne i zdefiniowanie metryki w jakimś zbiorze niesłychanie wzbogaca ten zbiór. Matematycy lubią definiować przestrzeń metryczna jako parę \( (X, d)\,\), tzn. jest to zbiór X wraz z określoną w niej odległościa, czyli metryką \( d=d(x, y) \,\).

Podobnie jest w teorii prawdopodobieństwa. Taka użyteczną przestrzenią jest przestrzeń probabilistyczna. Jest to zbiór, w którym określone są dodatkowe elementy, analogiczne do metryki. Dokładniej mówiąc przestrzeń ta nie jest parą jak w przypadku przestrzeni metrycznej, ale trójką, tzn. składa się na nią trzy elementy

 \( (\Omega,  {\mathcal F},  P)\;\) 


Rozszyfrujmy poszczególne elementy tej trójki.

\(\Omega\): przestrzeń zdarzeń elementarnych 

Pierwszy element trójki \((\Omega, \mathcal F, P)\), tzn. zbiór \(\Omega\) może składać się ze skończonej lub nieskończonej ilości elementów i nazywa się zbiorem zdarzeń elementarnych. Element \(\omega \in \Omega\) nazywa się zdarzeniem elementarnym lub inaczej mówiąc możliwym wynikiem doświadczenia.

Przykłady zbioru zdarzeń elementarnych \(\Omega\)

1. Doświadczenie polega na jednokrotnym rzucie monetą. Są dwa możliwe wyniki: wypadnie orzeł lub reszka. Wynikowi "orzeł" możemy przyporządkować oznaczenie \(\omega_1\), natomiast wynikowi "reszka" - \(\omega_2\). Tak więc zbiór zdarzeń elementarnych składa się z 2 elementów:

\[\Omega =\{\omega_1, \omega_2\}\;\].

2. Doświadczenie polega na dwukrotnym rzucie monetą. Teraz możliwe są cztery wyniki: \(\omega_1 =\)(orzeł, orzeł), \(\omega_2 =\)(orzeł, reszka), \(\omega_3 =\)(reszka, orzeł) i \(\omega_1 =\)(reszka, reszka). Np. \(\omega_3 =\) =(reszka, orzeł) oznacza, że w pierwszym rzucie wypadła reszka, natomiast w drugim rzucie - orzeł.Tak więc zbiór zdarzeń elementarnych składa się z 4 elementów: \(\Omega =\{\omega_1,\omega_2,\omega_3, \omega_4\}\).

3. Doświadczenie polega na jednokrotnym rzucie kostką do gry w popularnego "chińczyka". Wynikiem może być jedno oczko, albo dwa oczka, albo trzy oczka, albo cztery oczka, albo pięć oczek, albo sześć oczek. Przyporządkowując liczbie oczek oznaczenie \(\omega_n \) dla \( n=1, 2, 3, 4, 5, 6 \) otrzymamy 6-elementowy zbiór zdarzeń elementarnych

\[\Omega =\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5, \omega_6 \}\;\].

4. Doświadczenie znowu polega na jednokrotnym rzucie kostką do gry w "chińczyka". Tym razem interesuje mnie tylko to, czy wypadnie parzysta liczba (to znaczy 2 lub 4 lub 6) czy nieparzysta liczba (to znaczy 1 lub 3 lub 5). Przyporządkowując nieparzystej liczbie oczek oznaczenie \(\omega_1 \), natomiast parzystej liczbie oczek oznaczenie \(\omega_2 \) otrzymamy 2-elementowy zbiór zdarzeń elementarnych

\[\Omega =\{\omega_1, \omega_2 \}\;\].


5. Podzielę rok na doby. Będę analizował momenty czasu \(t_1, t_2, t_3, ...\), gdy ktoś do mnie dzwoni w ciągu doby. Moment czasu \(t_i\) jest losowy oraz \(t_i \in [0, 24]\). W tym przykładzie moment czasu \(t_i=\omega_i\) jest zdarzeniem elementarnym, a

\[\Omega = [0, 24]\;\]

jest przestrzenią zdarzeń elementarnych. Przestrzeń ta jest umownym interwałem czasowym, w którym chcę badać statystykę rozmów telefonicznych.

6. Substancje radioaktywne emitują od czasu do czasu cząstki. Moment emisji cząstki jest losowy i może zajść w przedziale czasu \([t_0, \infty)\), gdzie \(t_0\) jest początkiem detekcji emitowanych cząstek. Dla wygody przyjmujemy \(t_0=0\). Wówczas zbiór zdarzeń elementarnych to nieskończony przedział

\[\Omega = [0, \infty)\;\]

7. Cząstka (nazywana cząstką Browna) porusza się w wodzie i zderza się z cząsteczkami wody. Ruch takiej cząstki Browna wydaje się być losowy i bardzo nieregularny. Dla fizyka modelującego zachowanie się cząstki Browna, przestrzenią zdarzeń elementarnych może być zbiór wszystkich możliwych położeń czastki, czyli przestrzeń trójwymiarowa \(\Omega = RxRxR=R^3\). Gdybyśmy ograniczyli się do możliwych ruchów tylko w jednym wymiarze (czyli na prostej rzeczywistej) to przestrzenią zdarzeń elementaranych byłby zbiór liczb rzeczywistych

\[\Omega = R = (-\infty, \infty)\;\]

Trzy ostatnie przykłady sa odmienne od czterech pierwszych przykładów. Zbiór \(\Omega = [0, 24]\), zbiór \(\Omega = [0, \infty)\) i zbiór \(\Omega = (-\infty, \infty)\) składają się z nieskończenie wielu elementów, tzn. z nieskończenie wielu liczb rzeczywistych z ograniczonego przedziału \( [0, 24]\), nieograniczonego przedziału \( [0, \infty)\) lub nieograniczonego przedziału \( (-\infty, \infty)\). Zbiory te nieskończenie wielu liczb są pod wieloma względami inne niż zbiór nieskończenie wielu liczb naturalnych czy całkowitych. Mówimy, że są one mocy continuum. Natomiast zbiór nieskończenie wielu liczb naturalnych jest przeliczalny. Gdyby przestrzeń zdarzeń elementarnych była równoliczna ze zbiorem liczb naturalnych, to też zawierałaby nieskończenie wiele elementów. Jednakże obie przestrzenie probabilistyczne są radykalnie różne. O tym będzie mowa w dalszej części wykładów.



\({\mathcal F}\): rodzina podzbiorów zbioru \(\Omega\)

Drugi element trójki \((\Omega, \mathcal F, P)\), tzn. zbiór \({\mathcal F}\) jest tzw. \(\sigma\)-algebrą podzbiorów zbioru \(\Omega\).

Innymi słowy, elementami zbioru \({\mathcal F}\) są podzbiory zbioru zdarzeń elementarnych \(\Omega\), ale niekoniecznie wszystkie możliwe podzbiory. Rodzina tych podzbiorów powinna spełniać określone własności. A mianowicie:

  1. zbiór pusty należy do rodziny \(\mathcal{F}\),
  2. dopełnienie \(A'\) zbioru \(A\) należącego do \(\mathcal{F}\) też należy do \(\mathcal{F}\),
  3. suma przeliczalnie wielu zbiorów z \(\mathcal{F}\) też należy do \(\mathcal{F}\).

Elementy zbioru \({\mathcal F}\) nazywają się zdarzeniami.

Często w literaturze \(\sigma\)-algebra zbiorów nazywa się też \(\sigma\)-ciałem zbiorów.

Dlaczego żądamy, aby spełnione były powyższe (na pierwszy rzut oka nieco dziwaczne) własności? Otóż dlatego, że chcemy przeprowadzać różne operacje na elementach rodziny \({\mathcal F}\), czyli na zdarzeniach i chcemy w wyniku takich operacji otrzymywać także zdarzenia. Dlatego też w ogólnym przypadku nie koniecznie należy rozpatrywać wszystkie podzbiory zbioru \(\Omega \), ale tylko takie podzbiory, które są zdarzeniami. Aby uzmysłowic sobie, o co mi chodzi, posłużę się bardziej elementarnym i odmiennym przykładem.

Rozważmy zbiór liczb naturalnych i niech \(N\) i \(M\) będą dwiema liczbami naturalnymi. Suma \(N+M\) oraz iloczyn \(N M\) też są liczbami naturalnymi. Jeżeli chcemy dokonywac tylko te dwie operacje na liczbach naturalnych, to w wyniku operacji dodawania i iloczynu dostaniemy zawsze liczby naturalne. Jeżeli natomiast chcemy dokonywać operacji odejmowania dwóch liczb naturalnych, to nie zawsze otrzymamy liczbę naturalną, ponieważ np. 10-25=-15 nie jest liczbą naturalną. Jeżeli zamiast liczb naturalnych, rozważać będziemy zbiór liczb całkowitych, to w wyniku wszystkich trzech operacji otrzymamy zawsze liczbę całkowita. Z kolei gdybyśmy chcieli rozpatrywać jeszcze operację dzielenia dwóch liczb z pewnego zbioru i otrzymywać zawsze liczby z tego zbioru, to musimy rozważać zbiór liczb wymiernych. Widać z tego, że w zależności od tego, jakie operacje będą wykonywane na elementach pewnego zbioru, musimy też odpowiednio dobrać ten zbiór. Innymi słowy, ten zbiór powinien posiadać odpowiednią strukturę, odpowiednie własności.

Przykłady \(\sigma\)-algebry \(\mathcal F\)

Powyzej podaliśmy pięć przykładów zbioru zdarzeń elementarnych \(\Omega\). Dla niektórych z tych przykładów podamy możliwe zbiory \(\mathcal F\).


1. Dla pierwszego przykładu, przy jednokrotnym rzucie monetą zbiorem zdarzeń elementarnych jest zbiór

\[\Omega =\{\omega_1, \omega_2\}\;\]

Ponieważ \(\mathcal F\) jest rodziną podzbiorów zbioru \(\Omega\), więc otrzymamy następujące możliwe podzbiory zbioru \(\Omega\):

zbiór pusty \(\emptyset\) (nie zawiera on żadnego elementu),
zbiory jednoelementowe \(\{\omega_1\}\) oraz \(\{\omega_2\}\),
zbiór dwuelementowy \(\{\omega_1, \omega_2\}\) czyli zbiór \(\Omega\)

Zauważmy, że \(\mathcal F\) zawiera 4 podzbiory, czyli \(2^2\). To samo otrzymujemy dla przykładu 4.


2. Dla trzeciego przykładu, przy jednokrotnym rzucie kostką zbiorem zdarzeń elementarnych jest zbiór

\[\Omega =\{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\;\]

Możliwymi podzbiorami tego zbioru są następujące podzbiory

(a) zbiór pusty \(\emptyset\)

(b) wszystkie możliwe zbiory jedno-elementowe

\(\{\omega_1\}, \{\omega_2\}, \{\omega_3\}, \{\omega_4\}, \{\omega_5\}, \{\omega_6\}\)

(c) wszystkie możliwe zbiory dwu-elementowe

\(\{\omega_1, \omega_2\}\), \(\{\omega_1, \omega_3\}\), \(\{\omega_1, \omega_4\}\), \(\{\omega_1, \omega_5\}\), \(\{\omega_1, \omega_6\}\)
\(\{\omega_2, \omega_3\}\), \(\{\omega_2, \omega_4\}\), \(\{\omega_2, \omega_5\}\), \(\{\omega_2, \omega_6\}\)
\(....................................................\)
\(\{\omega_5, \omega_6\}\)

(d) wszystkie możliwe zbiory trój-elementowe

\(\{\omega_1, \omega_2, \omega_3\}\), \(\{\omega_1, \omega_2, \omega_4\}\), \(\{\omega_1, \omega_2, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_6\}\)
\(\{\omega_1, \omega_3, \omega_4\}\), \(\{\omega_1, \omega_3, \omega_5\}\), \(\{\omega_1, \omega_3, \omega_6\}\)
\(....................................................\)
\(\{\omega_4, \omega_5, \omega_6\}\)


(e) wszystkie możliwe zbiory cztero-elementowe

\(\{\omega_1, \omega_2, \omega_3, \omega_4\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_6\}\),
\(....................................................\)
\(\{\omega_3, \omega_4, \omega_5, \omega_6\}\)


(f) wszystkie możliwe zbiory pięcio-elementowe

\(\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_6\}\),
\(....................................................\)
\(\{\omega_2, \omega_3, \omega_4, \omega_5, \omega_6\}\)


(g) tylko jeden zbiór sześcio-elementowy

\(\{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\)

czyli zbiór zdarzeń elementarnych \(\Omega\)

Zbiór \(\mathcal F= \mathcal F_1\) zawiera \(2^6=64\) elementy. Jest to maksymalna liczba możliwych podzbiorów zbioru składającego się z 6 elementów. Jest to dobrze znany wynik. W ogolności dla zbioru \(\Omega\) składajacego się z \(N\) elementów, rodzina \(\mathcal F\) liczy \(2^N\) elementów. Liczba podzbiorów k-elementowych w zbiore N-elementowym to liczba kombinacji

\(N \choose k\). Stąd mamy

\({6 \choose 0} =1\) zbiorów zero-elementowych,

\({6 \choose 1} =6\) zbiorów jedno-elementowych,

\({6 \choose 2} =15\) zbiorów dwuelementowych,

\({6 \choose 3} =20\) zbiorów trój-elementowych,

\({6 \choose 4} =15\) zbiorów cztero-elementowych,

\({6 \choose 5} =6\) zbiorów pięcio-elementowych,

\({6 \choose 6} =1\) zbiorów sześcio-elementowych.


Suma tych liczb wynosi 64. Wynik ten można otrzymac z wyrażenia dla dwumianu Newtona

\((a+b)^N = \sum_{k=0}^N {N\choose k} a^k b^{N-k}\)

Przyjmując w tym wzorze a=b=1 otrzymamy

\(2^N = \sum_{k=0}^N {N\choose k}\)


Ten przykład jest interesujacy jeszcze z jednego powodu. Pokazuje on, że w zależności od tego, jakie pytania stawiamy, rodzina \(\mathcal F\) może być inaczej skonstruowana. Łatwo sprawdzić, że podzbiory

\(\emptyset\), \(\Omega\;\), \(\{\omega_1, \omega_3, \omega_5\}\;\), \(\{\omega_2, \omega_4, \omega_6\}\;\)

także spełniają własności \(\sigma\)-algebry. Więc jest to też możliwy zbiór \(\mathcal F= \mathcal F_2\).


Mamy obecnie dwie \(\sigma\)-algebry, oznaczone przez \(\mathcal F_1\) oraz \(\mathcal F_2\). Pierwsza \(\sigma\)-algebra zawiera 64 podzbiory, druga- tylko 4. Pamiętajmy, że elementy \(\sigma\)-algebry nazywają się zdarzeniami. Cóż to jest za zdarzenie

\(A_1= \{\omega_5, \omega_6\}\)

Jest to zdarzenie, polegające na tym, że przy jednokrotnym rzucie kostką wypadnie albo 5 albo 6.

Zdarzenie

\(A_2=\{\omega_1, \omega_3, \omega_5\}\)

oznacza, że wypadnie nieparzysta liczba oczek.

Zdarzenie

\(A_0=\emptyset \)

nazywa sie zdarzeniem niemożliwym.

Zdarzenie

\(A=\Omega= \{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\)

polega na tym, że przy jednokrotnym rzucie kostką wypadnie jedno z sześciu oczek. To jest pewne. Dlatego nazywa się ono zdarzeniem pewnym. Jest oczywiste, że gdy w jednokrotnym rzucie otrzymamy np. \(\omega_3\) czyli trójkę, to nie otrzymamy jedynki, czy piątki. To oznacza, że

\[i\ne j \implies \omega_i\cap \omega_j = \emptyset\]

Zdarzenia takie nazywamy zdarzeniami wzajemnie wykluczającymi się. W ogólności, jeżeli zachodzi relacja

\[i\ne j \implies A_i\cap A_j = \emptyset\]

to takie zdarzenia \(\{A_i\}\) nazywamy zdarzeniami wzajemnie wykluczającymi się.

Zauważmy, że rodzina podzbiorów \(\mathcal F_2\) jest znacznie uboższa niż rodzina \(\mathcal F_1\). Wybierając rodzinę podzbiorów \(\mathcal F_2\), pytamy tylko o parzystą lub nieparzystą liczbę oczek. Możemy konstruować jeszcze inne rodziny \(\mathcal F\).

Z powyższych przykładów wynika, że jeżeli przestrzeń zdarzeń elementranych składa się z n-elementów, to rodzina \(\mathcal F\) może składać się ze wszystkich podzbiorów zbioru \(\Omega\). A liczba wszystkich możliwych podzbiorów zbioru n-elementowego wynosi \(2^n\). Jest to maksymalna \(\sigma\)-algebra.

3. Jeżeli przestrzeń zdarzeń elementarnych jest zbiorem liczb rzeczywistych, tzn. \(\Omega = R\) lub dowolym jego podzbiorem, to \(\sigma\)-algebra generowana jest przez wszystkie zbiory otwarte \((a, b)\), gdzie \(a\) i \(b\) są dowolnymi liczbami rzeczywistymi. Tak \(\sigma\)-algebra składa się ze zbiorów otwartych \((a, b)\), zbiorów domknietych \([a, b]\), zbiorów półotwartych \([a, b)\) lub \((a, b]\), półprostych \((a, \infty)\), \((-\infty, b)\), \([a, \infty)\), \((-\infty, b]\), dowolnych przeliczalnych sum i iloczynów. Rodzina ta zawiera także różnice zbiorów i punkty. Wszystkie powyższe podzbiory tworzą najważniejszą \(\sigma\)-algebrę i nazywamy ją \(\sigma\)-algebrą zbiorów Borela.


\(P\): miara probabilistyczna 

Ostatni element trójki \((\Omega, \mathcal F, P)\), tzn. P jest funkcją i nazywa się miarą probabilistyczną lub po prostu prawdopodobieństwem. Argumentem tej funkcji są zdarzenia \(A\in \mathcal F\). Funkcja \(P\) musi spełniać określone warunki. Można je sformułować następująco:

Niech \({\mathcal F}\) będzie \(\sigma\)-algebrą podzbiorów zbioru \(\Omega\) oraz niech \(P:{\mathcal F}\longrightarrow {\mathbb R^+}\) będzie funkcją o następujących własnościach:

  1. \(P(A) \ge 0 \) dla dowolnego zdarzenia \(A \in {\mathcal F}\)
  2. \( P(\Omega) < \infty \)
  3. \(P\) jest σ-addytywna (lub inaczej mówiąc przeliczalnie addytywna), tzn.
\(P\left(\bigcup_{n = 0}^{\infty}~A_n\right) = \sum_{n = 0}^{\infty}~P(A_n)\) dla wszystkich parami rozłącznych zbiorów \(A_0,A_1,A_2,\ldots\in {\mathcal F}\).

Ponieważ elementy \(\sigma\)-algebry \(\mathcal F\) są zdarzeniami, to każdemu zdarzeniu \(A \in \mathcal F\) przyporządkowujemy nieujemną liczbę \(P(A)\). To liczba ma interpretację prawdopodobieństwa zajścia zdarzenia \(A\). Z własności 2, że \(P(\Omega)\) jest liczbą skończoną i z przyczyn historycznych oraz tradycji zakładamy, że \(P(\Omega)=1\). Inaczej mówiąc, zawsze możemy unormować miarę probabilistyczną do jedności. Przypomina to przyjęcie określonych jednostek w fizyce. Np.masa jednego kilograma jest kwestią umowną. Unormowanie funkcji \(P\) do jedności oznacza, że

\[ 0 \le P(A)\le 1 \]

Addytywność oznacza, że

\(P(A\cup B)=P(A)+ P(B)\) dla wszystkich wzajemnie wykluczających się zdarzeń \(A,B\in {\mathcal F}\), to znaczy takich, że ich część wspólna

(iloczyn) jest zbiorem pustym: \(A \cap B =\emptyset \).


WAŻNE RELACJE

\(P(A)\in[0,1]\), \(P(\emptyset) = 0\), \(P(\Omega) = 1\,\)

\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)

\(P(A')=1-P(A)\,\)

PRAWDOPODOBIEŃSTWO WARUNKOWE

\(P(A \mid B) = \frac{P(A \cap B)}{P(B)} \)

Jest to prawdopodobieństwo zajścia zdarzenia A pod warunkiem że zachodzi zdarzenie B. Definicja ta ma sens pod warunkiem, że \(P(B) \ne 0\)


Przykłady miar probabilistycznych


1. Przy jednokrotnym rzucie idealną monetą prawdopodobieństwo otrzymania orła (reszki) wynosi \(1/2\), czyli

\(P(\omega_1)=P(\omega_2) = \frac{1}{2}\)

Można też założyć ogólniejszy przypadek gdy \(P(\omega_1) =p_1\) oraz \(P(\omega_2) = p_2\). Wówczas musi zachodzić równość \(p_1+p_2=1\).

2. Przy jednokrotny rzucie idealną kostką prawdopodobieństwo otrzymania np. 2 oczek wynosi \(1/6\), czyli

\(P(\omega_k) = \frac{1}{6} \;\) dla \( k=1, 2, 3, 4, 5, 6 \;\).

Można też założyć ogólniejszy przypadek gdy \(P(\omega_k) =p_k \in [0, 1]\). Wówczas musi zachodzić równość \(p_1+p_2+p_3+p_4+p_5+p_6=1 \;\).

3. Niech przestrzeń zdarzeń elementarnych składa sie z nieskończonej ale przeliczalnej liczby elementów

\(\Omega=\{\omega_1, \omega_2, \omega_3, ...\}\;\)

Jeżeli \(P(\omega_k)=p_k \in [0, 1]\) oraz \(\sum_{k=1}^{\infty}p_k = 1\), to otrzymamy dobrze określone prawdopodobieństwa zajścia dowolnych zdarzeń w tej przestrzeni probabilistycznej.

4. Jeżeli przestrzenią zdarzeń elementarnych jest zbiór liczb rzeczywistych lub jego podzbiór, wówczas zdarzeniami są przedziały. Niech, niezależnie od interpretacji, zdarzeniem jest przedział \(A=(2, 8)\). Czy można określić prawdopodobieństwo zajścia zdarzenia \(A\), czyli ile wynosi

\(P(A=(2, 8))\;\)

Tak abstrakcyjnie sformułowane pytanie ma nieskończenie wiele możliwych realizacji. Podamy jedną z przykładowych odpowiedzi. Niech \(\Omega =R\). Niech \(f(x)\) będzie funkcja określoną na zbiorze \(\Omega\) o następujących własnościach

(i) \(f(x) \ge 0\) dla wszystkich \(x\in \Omega \;\)

(ii) \(\int_{-\infty}^{\infty} f(x) dx =1\;\)

Wówczas

\(P(A \in (2, 8)) = \int_{2}^{8} f(x) dx\;\)

Zamiast zbioru \(\Omega = R\), mozna rozważać półprostą lub odcinek. Wówczas we wzorze (ii) przedziałem całkowania jest półprosta lub odcinek.

Zmienna losowa

Przestrzeń probabilistyczna jest zbiorem, więc tak jak na każdym zbiorze tak i na przestrzeni probabilistycznej możemy definiować odwzorowania. Niech \(f\) będzie dowolną funkcją określoną na zbiorze \(X\) o wartościach w zbiorze \(Y\). Pamiętamy, że element zbioru \(X\) nazywany jest argumentem funkcji (zmienną niezależną), natomiast zbiór \(Y\) jest zbiorem wartości funkcji. Zmienna losowa jest też funkcją, tyle że na przestrzeni probabilistycznej. Tutaj odpowiednikiem zbioru \(X\) jest zbiór zdarzeń elementarnych \(\Omega\), a zmienną niezależną jest zdarzenie elementarne \(\omega\). Jednak nie wszystkie funkcje na zbiorze \(\Omega\) nazywają się zmiennymi losowymi. Problem jest nieco podobny do tego, że nie wszystkie funkcje są funkcjami ciągłymi. Z "praktyki" studenci wiedzą, że funkcje ciągłe są "przyjemniejsze" (na przykład granica lewostronna jest równa granicy prawostronnej i jest to liczba skończona). Analogiem funkcji ciągłych są zmienne losowe.


Precyzyjna definicja matematyczna jest następujaca:

Niech \((\Omega, F, P)\;\) będzie przestrzenia probabilistyczną oraz \((X, {\mathcal B})\) -- przestrzenią fazową, tzn. zbiorem \(X\) wraz z \(\sigma\)-algebrą \({\mathcal B}\) zbioru \(X\). Zwykle \(X=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}\) są zbiory Borela.


Zmienną losową (rzeczywistą) na przestrzeni probabilistycznej \((\Omega, \mathcal F, P)\) nazywamy dowolną rzeczywistą funkcję mierzalną \(\xi \colon \Omega \to R\), tzn. funkcję \(\xi \;\) spełniającą warunek

\(\xi^{-1}(B)\in \mathcal{F}\) dla każdego zbioru borelowskiego \(B\in {\mathcal B}\).

Innymi słowy, przeciwobraz zbioru Borela jest zdarzeniem w przestrzeni probabilistycznej \(\Omega\). Definicja ta przypomina topologiczną definicję odwzorowania ciągłego: mówiąc w wielkim skrócie, odwzorowanie \(G\) nazywa się ciągłym gdy przeciwobraz każdego zbioru otwartego jest zbiorem otwartym. Jest to mniej znana definicja odwzorowania ciągłego, ale jest ona równoważna tradycyjnej definicji ciągowej.

Zwykle zmienne losowe zapisuje się za pomocą liter greckich \(\xi, \eta \;\), odmiennie niż zapisuje się funkcje. Oznaczenie \(\xi(\omega)\) odpowiada tradycyjnemu zapisowi dla funkcji \(f(x)\).

Dodatkowo narzucamy warunek

\(P(\{\omega: \xi(\omega)=\pm \infty\})=0\)

Innymi słowy, zbiór wszystkich zdarzeń elementarnych, dla których zmienna losowa przyjmuje nieskończone wartości, jest miary zero. Np. gdy analizujemy ruch cząstki Browna, prawdopodobieństwo tego, że czastka ta jest w nieskończości wynosi zero. Jest to naturalne założenie dla wszystkich realnych zjawisk. Jeżeli jako zbiór Borela w przestrzeni fazowej \(X\) przyjmiemy \(B=(-\infty, x]\), gdzie \(x\) jest dowolna liczbą rzeczywistą, to warunek mierzalności można napisać w bardziej przejrzystej formie:

\(\{\omega: \xi(\omega) \le x\} \in\mathcal F \;\)

czyli zbiór takich \(\omega \; \) jest elementem \(\sigma\)-algebry \(\mathcal F\), to znaczy jest zdarzeniem w wyjściowej przestrzeni \(\Omega\). Oczywiście zbiór

\(\{\omega: \xi(\omega) > x\} \in \mathcal F \;\)

też jest zdarzeniem dla dowolnych wartości \(x\).

Rozważa się również zmienne losowe o wartościach w abstrakcyjnych przestrzeniach topologicznych (żeby analogicznie mówić o przeciwobrazach zbiorów borelowskich danej przestrzeni topologicznej) - i tak, na przykład: zmienne losowe o wartościach zespolonych nazywa się zmiennymi losowymi zespolonymi. Odwzorowanie mierzalne określone na przestrzeni \(\Omega\) o wartościach w przestrzeni \(R^n\) nazywa się wektorem losowym. Wektor losowy ma postać

\( \xi(\omega) = \left[\xi_1(\omega), \xi_2(\omega), \dots, \xi_n(\omega)\right]\)

gdzie \(\xi_i(\omega)\;\) dla \(i = 1, \dots, n\) są zmiennymi losowymi rzeczywistymi.



Rozkłady prawdopodobieństwa zmiennej losowej

Jeżeli badamy zjawiska losowe, to zwykle przypisujemy im jakieś wektory zmiennych losowych. Te zmienne losowe przyjmują wartości z pewnych zbiorów. Tymi zbiorami są często zbiory Borela. W teorii probabilistycznej pytamy, jakie jest prawdopodobieństwo tego, że zmienna losowa przyjmuje wartości należące np. do przedziału \((2, 8)\;\), a ten przedział jest zbiorem Borela. Analizując ruch cząstki Browna, możemy zapytać, jakie jest prawdopodoieństwo tego, że chwili czasu \(t=7 \;\) cząstka znajduje się w przedziale położeń \((2, 8)\). Jeżeli śledzimy ruch cen akcji na giełdzie, pytamy jakie jest prawdopodobieństwo tego, że chwili czasu \(t=16.03 \;\) cena akcji firmy PATUREX jest większa niż 23 Euro. Jeżeli jesteśmy w stanie odpowiadać na tego typu pytania, to znaczy że znamy rozkłady prawdopodobieństa zmiennych losowych.

Formalna definicja brzmi:

Funkcją rozkładu (lub równoważnie rozkładem prawdopodobieństwa) \(\mathcal P_{\xi}(B) \;\) zmiennej losowej \(\xi\) nazywamy funkcję na przestrzeni fazowej zdefiniowanej w następujący sposób:

\(\mathcal P_{\xi}(B) = P(\{\omega: \xi(\omega) \in B\})\)

Funkcja \(\mathcal P \;\) ma wszystkie własności miary probabilistycznej: jest nieujemna, przeliczalnie addytywna i unormowana do jedności. To oznacza, że ma interpretację prawdopodobieństwa. Innymi slowy, \(\mathcal P_{\xi}(B) \;\) jest prawdopodobieństwem tego, że zmienna losowa \(\xi\) przyjmuje wartości należące do zbioru Borela \(B\). Czasami stosuje się zapis

\(\mathcal P_{\xi}(B) = Pr(\xi \in B) \) 

Czytamy: prawdopodobieństwo tego, że zmienna losowa \(\xi\) przyjmuje wartości należące do zbioru Borela \(B\).


Ponieważ narzucamy dodatkowy, ale naturalny warunek

\( P(\{\omega: \xi(\omega) = \pm \infty\}) = 0\)

to wynika stąd że

\(Pr (\xi = \pm \infty) = 0\)


Zwróćmy uwagę na różne oznaczenia prawdopodobieństw \(P\) i \(\mathcal P\). Zapis \(P(A)\) oznacza prawdopodobieństwo zdarzenia \(A\) w przestrzeni probabilistycznej \(\Omega\), natomiast zapis \(\mathcal P_{\xi}(B)\) oznacza prawdopodobieństwo zdarzenia w przestrzeni fazowej \(X\). Powyższą równość definiującą prawdopodobieństwa w przestrzeni fazowej \(X\) matematycy określają jako transport miary z jednej przestrzeni (tutaj \(\Omega\)) w inną przestrzeń (tutaj \(X\)). Jest to równość, której różne wersje są bardzo często wykorzystywane. Studenci powinni zrozumieć jej istotę. Zauważmy, że znając \(\mathcal P_{\xi}\), przestrzeń fazowa \(X\) staje się nowa przestrzenia probabilistyczną:

\((X, \mathcal B, \mathcal P_{\xi})\)

Na tej przestrzeni probabilistycznej można zdefiniować nową zmienną losową jako odwzorowanie zbioru \(X\) w zbiór \(Y\) będący nową przestrzenią fazową. Oczywiście w zbiorze \(Y\) należy zdefiniować \(\sigma\)-algebrę, np. zbiorów Borela. Konstrukcję taką możemy powtarzać wielokrotnie, otrzymując nowe zmienne losowe. Można zauważyć, że gdy mamy określone wszystkie trzy elementy w trójce \((X, \mathcal B, \mathcal P_{\xi})\), to wcale nie potrzebna nam jest wyjściowa przestrzeń probabilistyczna \((\Omega, \mathcal F, P)\). Możemy o niej zapomnieć, ponieważ znajomość funkcji rozkładu \(\mathcal P_{\xi} \) zmiennej losowej \(\xi\) jest wystarczająca do zbadania wszystkich probabilistycznych własności samej zmiennej losowej \(\xi\).

Niektóre zbiory Borela są bardziej "uprzywilejowane" od innych (jak to zwykle bywa na tym świecie). Przykładem wyjątkowo "uprzywilejowanego" zbioru Borela jest półprosta ( raczej rodzina półprostych)

\(B=(-\infty, x]\)

gdzie \(x\in R\) jest dowolna liczbą rzeczywistą.

Wówczas stosujemy specjalne oznaczenie dla rozkładu prowadopodobieństwa, a mianowicie

\[F_{\xi}(x) = \mathcal P_{\xi}(B) = \mathcal P_{\xi}( (-\infty, x]) = Pr(\xi \in (-\infty, x]) \]

\[ = Pr(\xi \le x) = P(\{\omega: \xi(\omega) \in (-\infty, x]\}) = P(\{\omega: \xi(\omega) \le x\})\]

Użyliśmy tu wszystkich możliwych form na zapis tej samej wielkości. Ponieważ wielkość ta zależy od wartości \(x\), to oznacza po prostu że jest to funkcja zależna od \(x\). Tak więc \(x\) traktujemy jako zmienną niezależną w funkcji \(F_{\xi}(x)\).

Rozkład powyższy nazywamy dystrybuantą zmiennej losowej \(\xi\). Dystrybuanta \(F_{\xi}(x)\) jest funkcją parametru \(x\), który wyznacza prawy koniec przedziału \((-\infty, x]\). Jeżeli wiemy o jaką zmienną losową chodzi (aby nie prowadziło to do niejednoznaczności) to stosujemy skrócony zapis

\(F(x) = F_{\xi}(x)\;\)


Przykłady zmiennej losowej i jej rozkłady prawdopodobieństwa

Podamy przykłady zmiennej losowej i wyliczymy jej różne rozkłady prawdopodobieństwa. Przykłady te pozwolą studentowi wyrobić intuicję o własnościach dystrybuanty. Wprowadzimy też specjalny zapis dystrubuanty tej zmiennej losowej za pomocą funkcji schodkowej Heaviside'a, użyteczny pod wieloma względami, np. ułatwiający zapis różnych procesów stochastycznych i pozwalający na ich łatwe uogólnienia.


1. Doświadczenie polega na jednokrotnym rzucie kostką do gry. Więc przestrzenią zdarzeń elementarnych jest zbiór

\(\Omega = \{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5, \omega_6 \}\,\)

Niech zmienna losowa \(\xi\) będzie zdefiniowana przez relację

\(\xi(\omega_k) = 2k+3\,\)

Przestrzeń fazowa składa się z wartości tej funkcji, a mianowicie

\(X=\{\xi(\omega_k)\} = \{5, 7, 9, 11, 13, 15 \}\,\)

(i) Zdarzenie

\(\{\xi(\omega) \le 9\} = \{\omega: \xi(\omega) \le 9 \} = \{\omega_1, \omega_2, \omega_3\} = \omega_1 \cup \omega_2 \cup \omega_3= A \).

Więc

\(F(9) = F_{\xi}(9) = P(A) = P(\{\omega_1, \omega_2, \omega_3\}) = P(\omega_1) + P(\omega_2) + P(\omega_3) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{1}{2} \)

Wykorzystaliśmy tu własność addytywności prawdopodobieństwa dla zdarzeń wzajemnie wykluczających się, \(\omega_i \cap \omega_j = \empty\) dla \(i \ne j\).

(ii) Zdarzenie

\(\{\xi(\omega) \le 6\} = \{\omega: \xi(\omega) \le 6 \} = \{\omega_1\} = B \)

ponieważ

\(\xi(\omega_1) =5\le 6 \,\)

Więc

\(F(6) = F_{\xi}(6) = P(B) = P(\omega_1) = \frac{1}{6} \)

(iii) Zdarzenie

\(\{\xi(\omega) \le 0\} \;\)

jest zdarzeniem niemożliwym, to znaczy nie ma takich zdarzeń elementarnych \(\omega_k\), aby \(\xi(\omega_k) \le 0 \). Najmniejszą wartością zmiennej losowej jest liczba \(\xi(\omega_1) = 5\).

Dystrybuanta zmiennej losowej dyskretnej \(\xi(\omega_k) = 2k+3\)

Dlatego też

\(F(0) = Pr(\xi \le 0) =0\)

Podobnie

\(F(1) = Pr(\xi \le 1) =0 \; \; \;\)

\( F(4) = Pr(\xi \le 4) =0 \; \; \;\)

\( F(4.9) = Pr(\xi \le 4.9) =0\)


(iv) Natomiast zawsze na przykład \(\xi(\omega_k) \le 20 \). To jest pewne. Dlatego też

\(F(20) = Pr(\xi \le 20) =1\)

Wszystkie powyżej przedstawione przypadki można elegancko przedstawić za pomocą następującej formuły matematycznej


\(F_{\xi}(x) = \frac{1}{6} \theta(x-5) + \frac{1}{6} \theta(x-7) + \frac{1}{6} \theta(x-9) + \frac{1}{6} \theta(x-11) + \frac{1}{6} \theta(x-13) +\frac{1}{6} \theta(x-15) \)


gdzie funkcja teta Heaviside'a \(\theta(x)\) jest zdefiniowana w Dodatku Matematycznym: Elementy teorii dystrybucji. Tutaj przypominamy, że \(\theta(x)=1\) gdy \(x\ge 0\) oraz \(\theta(x)=0\) gdy \(x < 0\).


2. Oto przykład dziwnej zmiennej losowej. Definiujemy ją przez relację

\(\xi(\omega) = 3\;\)

Może ona być zdefiniowana dla dowolnej przestrzeni probabilistycznej. Jak ją interpretować? Niezależnie od wyniku \(\omega \) dowolnego doświadczenia przypisujemy jej wartość \(3\). Jest to analog funkcji stałej \(f(x)=3\): niezależnie od wartości zmiennej niezależnej \(x\), wartość funkcji zawsze wynosi \(3\). Użyliśmy określenia "dziwna zmienna losowa" ponieważ ta zmienna losowa tak naprawdę nie jest losowa: zawsze wynosi 3. Porównajcie ją z poprzednim przykładem: dla różnych \(\omega\) otrzymywaliśmy różne wartości \(\xi\). Tym razem, obojętnie jaka liczba oczek wypadnie, zawsze temu przypisujemy liczbę \(3\). Oczywiście zamiast liczby 3, może być wybrana każda inna liczba rzeczywista, np. \(\xi =c , \; c\in R\). Jej dystrybuanta może być wyznaczona podobnie jak w poprzednim przykładzie. W wyniku otrzymamy

\(F_{\xi}(x) = \theta(x-3)\;\)

Graficznie, jest to funkcja schodkowa o jednym schodku, \(F_{\xi}(x) = 0\) gdy \(x < 3\) oraz \(F_{\xi}(x) = 1\) gdy \(x \ge 3\).

Jeżeli \(\xi(\omega) = c\) to \(F_{\xi}(x) = \theta(x-c)\). Zapamiętajcie ten przykład, ponieważ będzie on wielokrotnie wykorzystywany w różnym kontekście: Jeżeli zmienna losowa nie jest "losowa", to znaczy jest "deterministyczna", wówczas jej dystrybuanta jest funkcją teta Heaviside'a. Dla przykładu, jeżeli znamy dokładnie położenie cząstki Browna w chwili czasu \(t=0\) i wynosi \(\xi = 5\), to wówczas odpowiadająca temu dystrybuanta ma postać

\(F_{\xi}(x) = \theta(x-5)\;\)


3. Bardzo ważny przykład. Rozważmy dowolą przestrzen probabilistyczną \(\Omega\). Rozbijmy ją na dwa podzbiory \(A\) i jego dopełnienie \(A'\), to znaczy

\(\Omega = A \cup A'\;\), \( A \cap A' = \empty\;\)


Mamy dwa zdarzenia: zdarzenie \(A\) które nazwiemy umownie sukcesem i zdarzenie \(A'\) które nazwiemy umownie porażką. Mamy pojedyńcze doświadczenie E i w wyniku tego doświadczenie możemy otrzymać sukces \(A\) lub porażkę \(A'\). Niech prawdopodobieństwo sukcesu wynosi \(p=p_1\) i porażki \(q=p_2\), czyli

\(P(A) = p=p_1, \; P(A') = q=p_2, \; p+q=1\;\)


Zdefiniujmy zmienną losową \(\xi\) w następujący sposób:

\(\xi(A) = 1\;\)

\(\xi(A') = 0\;\)

Zauważmy, że prawdopodobieństwo tego że \(\xi=1\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A\), czyli

\(Pr (\xi = 1) = P(A) = p_1 \;\)

Podobnie, prawdopodobieństwo tego że \(\xi=0\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A'\), czyli

\(Pr (\xi = 0) = P(A') = p_2, \;\)

Ponieważ zmienna losowa przyjmuje dwie wartości, więc jej dystrybuanta składa się z dwóch schodków:

\(F_{\xi}(x) = p \theta(x-1) + q\theta (x-0) = p_1 \theta(x-1) + p_2 \theta (x-0) \;\)


4. Przykład podsumowujący. Niech przestrzeń probabilistyczna będzie sumą wzajemnie rozłącznych podzbiorów (zdarzeń wzajemnie wykluczających się) \(A_k \; (k=1, 2, 3, ..., n)\), to znaczy


\(\Omega = A_1 \cup A_2 \cup A_3 \cup ... \cup A_n\)

\(A_i \cap A_j = \empty\) dla \(i \ne j\)

i niech

\(P(A_k) = p_k, \; k=1, 2, 3, ... n\)

przy czym suma wszystkich prawdopodobieństw wynosi 1 (warunek unormowania),

\(\sum_{k=1}^{n} p_k = 1\)

Zdefiniujmy zmienną losową przez relację

\(\xi(A_k) = x_k, \; \; k=1, 2, 3, ... n\;\)

Zauważmy, że prawdopodobieństwo tego że \(\xi=x_k\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A_k\), czyli

\(Pr (\xi = x_k) = P(A_k) = p_k\;\)

Mając praktykę nabytą przy analizie poprzednich trzech przykładów możemy napisać wyrażenie na dystrybuantę tej zmiennej losowej:


                              \(F_{\xi} (x) = \sum_{k=1}^{n} p_k \theta(x-x_k)\) 


W wyrażeniu tym \(x_k\) - to są możliwe wartości zmiennej losowej \(\xi\), natomiast \(p_k =Pr(\xi = x_k)\) jest prawdopodobieństwem tego, że zmienna losowa \(\xi\) przyjmuje wartość \(x_k\).


Własności dystrybuanty

Wprost z definicji wnioskujemy o 2 własnościach:

(1) \(F_{\xi}(\infty) = Pr(\xi \le \infty) =1\)

(2) \(F_{\xi}(-\infty) = Pr(\xi \le -\infty) = 0\)

Pozostałe 3 własności to:

(3) \(F_{\xi}(x)\) jest funkcją niemalejącą, to znaczy

jeżeli \(x_1 < x_2 \;\) to \(F_{\xi}(x_1) \le F_{\xi}(x_2)\)

(4) \(F_{\xi}(x)\;\) jest funkcją prawostronnie ciągłą, to znaczy

\(\lim_{\epsilon \to 0^+} F_{\xi}(x+\epsilon) = F_{\xi}(x) \)

Zapisujemy to w skróconej postaci jako

\(F_{\xi}(x^+) = F_{\xi}(x) \;\)

(5) \(Pr(\xi = x) = \lim_{\epsilon \to 0^+}[F_{\xi}(x) - F_{\xi}(x-\epsilon)] = F_{\xi}(x) - F_{\xi}(x^-) \)

Wynika stąd, że jeżeli dystrybuanta jest funkcją ciągłą (prawostronnie i lewostronnie ciągłą) to

\(Pr(\xi = x) = 0 \;\)

Dystrybuanta, jak inne funkcje, niekoniecznie musi być różniczkowalna we wszystkich punktach (dla wszystkich wartości \(x\)). W zależności od własności funkcji \(F_{\xi}(x)\), możemy dokonać klasyfikacji zmiennych losowych. I tak jeżeli \(F_{\xi}(x)\) jest funkcją ciągłą i różniczkowalną, z wyjątkiem co najwyżej przeliczalnej liczby punktów (to znaczy nie jest różniczkowalna w co najwyżej przeliczalnej liczbie punktów), wówczas \(\xi \) nazywamy zmienną losową ciągłą. Jeżeli dystrybuanta jest funkcją schodkową, to \(\xi\) nazywa się zmienną losową dyskretną. Pozostałe zmienne losowe będziemy nazywać mieszanymi.

Z własności (5) wynika, że dla zmiennych losowych ciągłych \(Pr(\xi = x) = 0 \). To jest bardzo ważną własność. Jeżeli rozpatrujemy losowy ruch cząstki Browna, to prawdopodobieństwo tego, że w pewnej chwili czasu jest ona w położeniu x wynosi zero! Podobnie jest dla losowych procesów urodzin: prawdopodobieństwo tego, że dziecko urodzi się w chwili dajmy na to \(t=5\) wynosi zero. Dla zmiennych losowych ciągłych pytania innego typu mają nietrywialną odpowiedź. Tym pytaniem jest na przykład: jakie jest prawdopodobieństwo tego, że w pewnej chwili czasu cząstka znajduje się w przedziale położeń \((x_1, x_2)\) lub: jakie jest prawdopodobieństwo tego, że dziecko urodzi się w przedziale czasowym \((t_1, t_2)\). Odpowiedź na tego typu pytania daje znajomość dystrybuanty. Pokażemy obecnie, że dla \(x_2 > x_1\) zachodzi relacja


                                 \(Pr(\xi \in (x_1, x_2]) = F_{\xi}(x_2) - F_{\xi}(x_1)\) 


Zauważmy, że zbiór

\(\{\xi \le x_2\} = \{\xi \le x_1 \} \cup \{x_1 < \xi \le x_2\} \)

oraz dwa ostatnie zbiory są rozłączne, to znaczy

\( \{\xi \le x_1 \} \cap \{x_1 < \xi \le x_2\} = \empty\)

Odpowiadające im zdarzenia wzajemnie wykluczają się, więc korzystając z \(\sigma\)-addytywności prawdopodobieństwa otrzymamy

\(Pr(\xi \le x_2) = Pr( \{\xi \le x_1 \} \cup \{x_1 < \xi \le x_2\}) = Pr(\xi \le x_1) + Pr(x_1 < \xi \le x_2) \)

Korzystając z kolei z definicji dystrybuanty, wyrażenie to można przepisać w postaci

(****) \( F_{\xi}(x_2) = F_{\xi}(x_1) + Pr(\xi \in (x_1, x_2]) \)

Stąd otrzymujemy powyższą relację.




Gęstość rozkładu prawdopodobieństwa

Gęstość rozkładu prawdopodobieństwa zmiennej losowej

Dystrybuanta \(F_{\xi}(x)\) zmiennej losowej \(\xi\) jest funkcją \(x\), to znaczy prawego końca przedziału \(A=(-\infty, x]\) będącego zdarzeniem. Zdarzenie to ma taką oto interpretację: zmienna losowa \(\xi\in (-\infty, x]\). Pochodna

                                  \(p_{\xi}(x) = \frac{dF_{\xi}(x)}{dx}\)


nazywa się gęstością rozkładu prawdopodobieństwa zmiennej losowej \(\xi\). Można też spotkać takie nazwy jak: funkcja gęstości, gęstość prawdopodobieństwa lub funkcja gęstości prawdopodobieństwa. Powyższe wyrażenie scałkujemy obustronnie w odpowiednich granicach:

\(\int_{-\infty}^x \frac{dF_{\xi}(y)}{dy} dy = F_{\xi}(x) - F_{\xi} (-\infty) = F_{\xi}(x) = \int_{-\infty}^x p_{\xi}(y)dy \)

Związek ten pozwala wyrazić dystrybuantę przez gęstość prawdopodobieństwa. Rozpatrzmy teraz wzór (****) na prawdopodobieństwo tego, że zmienna losowa przyjmuje wartości z pewnego przedziału oraz skorzystajmy z powyższego wzoru. Otrzymamy wówczas:

\(Pr(\xi \in (x_1, x_2]) = F_{\xi}(x_2) - F_{\xi}(x_1) = \int_{-\infty}^{x_2} p_{\xi}(y)dy -\int_{-\infty}^{x_1} p_{\xi}(y)dy \)

\( = \int_{-\infty}^{x_2} p_{\xi}(y)dy +\int_{x_1}^{-\infty} p_{\xi}(y)dy\)

Korzystając z własności całek oznaczonych możemy przepisać ten wzór w postaci


                             \( Pr \{ \xi \in (x_1, x_2])\} = \int_{x_1}^{x_2} p_{\xi}(y)dy \)


Jest to jedna z najważniejszych relację, która wiąże gęstość prawdopodobieństwa z prawdopodobieństwem.

Można również podać ogólniejszy wzór dla prawdopodobieństwa rozkładu, a mianowicie prawdopodobieństwo tego, że zmienna losowa \(\xi\) przyjmuje wartości z pewnego zbioru \(B\) wynosi


\( Pr \{ \xi \in B\} = \int_{B} p_{\xi}(y)dy \)

Innymi słowy, należy gęstość rozkładu prawdopodobieństwa scałować po obszarze \(B\).


Własności gęstość rozkładu prawdopodobieństwa:

1. Ponieważ dystrybuanta jest funkcją niemalejącą to jej pochodna (czyli gęstość) jest funkcją nieujemną. Stąd

                                        \(p_{\xi}(x) \ge 0\)  


2. Ponieważ \(F_{\xi}(\infty) = Pr(\xi \le \infty) =1\) stąd


                                    \(\int_{-\infty}^{\infty} p_{\xi}(y)dy =1\)

Relację tę nazywa się warunkiem unormowania.

Można postawić sobie pytanie odwrotne, czy każdej funkcji \(p(x)\) o podanych powyżej dwóch własnościach odpowiada jakaś zmienna losowa? Odpowiedź jest pozytywna i matematycy formułują ją w postaci twierdzenia: tak, istnieje taka zmienna losowa dla której gęstość rozkładu prawdopodobieństwa ma postać \(p(x)\). Ponieważ istnieje nieskończenie wiele funkcji nieujemnych i normowalnych w różnych przestrzeniach fazowych, wiec istnieje także nieskończenie wiele zmiennych losowych.

Dla zmiennej losowej ciągłej, najczęściej przestrzenią fazową jest prosta (cała oś liczbowa), półprosta lub odcinek. Wówczas warunek unormowania odnosi się do prostej, półprostej lub odcinka. W dwóch ostatnich przypadkach warunek unormowania ma na przykład postać:

\(\int_{0}^{\infty} p_{\xi}(y)dy =1 \)

gdy przestrzenią fazową jest zbiór \(X = [0, \infty)\) lub

\(\int_{0}^{1} p_{\xi}(y)dy =1\)

gdy przestrzenią fazową jest odcinek \(X = [0, 1] \).

Zapis dla przypadków tego typu zawsze mozna sprowadzić do jednolitego zapisu z przedziałem całkowania \(X = (-\infty, \infty)\) poprzez przedefiniowanie funkcji gęstości rozkładu prawdopodobieństwa, wykorzystując funkcję schodkową Heaviside'a \(\theta(x)\). I tak dla półprostej

\(p_{\xi}(x) -> {\tilde p}_{\xi}(x) = \theta(x) p_{\xi}(x)\)

Wówczas warunek unormowania można zapisać w postaci

\(\int_{-\infty}^{\infty} {\tilde p}_{\xi}(y)dy =1 \)

Podobnie, gdy \(X = [0, 1]\), przedefiniowana gęstość ma postać

\(p_{\xi}(x) -> {\tilde p}_{\xi}(x) = \theta(x) \theta (1-x) p_{\xi}(x)\)


UWAGA: Niektórzy studenci (ci o słabszym opanowaniu wiadomości z teorii funkcji i teorii całki) mają kłopoty ze zrozumieniem zapisu różnych wyrażeń matematycznych. Przykładem takim są równoważne wyrażenia


\(\int_{-\infty}^{\infty} p_{\xi}(y)dy = \int_{-\infty}^{\infty} p_{\xi}(x)dx = \int_{-\infty}^{\infty} p_{\xi}(u)du = \int_{-\infty}^{\infty} p_{\xi}(s)ds =1\)

Należy pamiętać, że zmienna całkowania jest "niemą" zmienną i można ją oznaczać dowolnymi literami, a nie tylko literą "x" czy "y".


Przykłady gęstości prawdopodobieństwa dla zmiennych losowych ciągłych


Każdy z czytelników może wymyślać swoje własne zmienne losowe wybierając jakieś nieujemne i normowalne funkcje. Ale taka zabawa nie byłaby zbytnio konstruktywna ponieważ trudno byłoby taką metodą podać realne zjawiska które mają takie rozkłady. My podamy 3 możliwe funkcji abstrahując na razie od analizy samych zmiennych losowych i żródła ich występowania. Zwróćmy uwagę na różne przestrzenie fazowe dla poszczególnych zmiennych losowych, to znaczy dopuszczalne wartości zmiennej \(x\).

1. Zmienna losowa normalna (gaussowska, o rozkładzie Gaussa) opisywana jest gęstością prawdopodobieństwa w postaci


\(p(x) = N \exp(-ax^2)\;\), \(x\in (-\infty, \infty)\;\),


parametr \(a>0\), stałą \(N\) wyznacza się z warunku unormowania


2. Zmienna losowa o rozkładzie gamma


\(p(x) = N x^b \exp(-ax)\;\), \(x\in [0, \infty)\), \(b > -1\;\)


\(a\) i \(N\) - podobnie jak w przykładzie 1.


3. Zmienna losowa o rozkładzie beta


\(p(x) = N x^b (1-x)^c \;\), \(x\in [0, 1]\), \(b, c > -1\;\)


\(N\) - podobnie jak w przykładzie 1.


Wszystkie trzy przykłady opisują zmienne losowe ciągłe odpowiednio na przestrzeniach fazowych: \((-\infty, \infty)\;\), \([0, \infty)\) oraz \([0, 1]\;\).



Gęstość prawdopodobieństwa dla zmiennych losowych dyskretnych

Możemy rozpatrzeć przykład 4 zmiennej losowej, ponieważ zawiera on pozostałe 3 przykłady jako przypadki szczególne. Ponieważ znamy dystrybuantę dla tej zmiennej losowej, to wyznaczenie gęstości prawdopodobieństwa polega na zróżniczkowaniu tej funkcji. Jedynym problemem jest obliczenie pochodnej funkcji teta Heaviside'a. Ponieważ funkcja ta jest funkcją nieciągłą, więc z pewnością standardowa pochodna nie istnieje w każdym punkcie. Natomiast z pewnością istnieje pochodna uogólniona, czyli innymi słowy pochodna w sensie teorii dystrybucji lub krócej: pochodna dystrybucyjna. Z teorii dystrybucji wiemy, że

\(\frac{d\theta(x)}{dx} = \delta(x)\)


gdzie \(\delta(x)\) jest dystrybucją Diraca nazywaną potocznie deltą Diraca lub funkcją delta Diraca (chociaż nie jest to funkcja w potocznym czy standardowym sensie).

Korzystajac z powyższej formuły dla pochodnej funkcji schodkowej oraz ze wzoru na dystrybuantę zmiennej losowej losowej, możemy napisać wyrażenie na gęstość prawdopodobieństwa zmiennej losowej losowej dyskretnej w postaci:


                              \(p_{\xi} (x) = \sum_{k=1}^{n} p_k \delta(x-x_k)\) 


W wyrażeniu tym \(x_k\) - to są możliwe wartości zmiennej losowej \(\xi\), natomiast \(p_k =Pr(\xi = x_k)\) jest prawdopodobieństwem tego, że zmienna losowa \(\xi\) przyjmuje wartość \(x_k\).



Momenty statystyczne zmiennej losowej

w praktycznych zastosowaniach często interesują nas niektóre charakterystyki probabilistyczne zmiennej losowej. Typową taką wielkością jest wartość średnia zmiennej losowej. W literaturze istnieją też inne nazwy na wartość średnią: wartość oczekiwana, wartość przeciętna, nadzieja matematyczna, pierwszy moment statystyczny, moment statystyczny pierwszego rzędu. Pojęcie to jest uogólnieniem prostego pojęcia średniej z dwóch liczb: Jeżeli mamy dwie liczby, na przykład 2 oraz 6 to wartość średnia wynosi \((2+6)/2=4\). Ogólniej, dla dwóch liczb a oraz b, wartość średnia wynosi \((a+b)/2\). Dla zbioru liczb

\(\{x_1, x_2, x_3, ..., x_n \;\}\)

wartość średnia wynosi

\(\frac{x_1+ x_2+ x_3+ ...+ x_n}{n}= \sum_{k=1}^{n} \frac{1}{n} x_k\).

Jeżeli mamy określoną zmienną losową dyskretną

\(\xi=\{x_1, x_2, x_3, ..., x_n\}\;\)

przyjmującą wartości \(x_k\;\) z prawdopodobieństwem \(p_k\;\), to wartość średnia \( <\xi> \;\) zmiennej losowej \(\xi\;\) jest naturalnym uogólnieniem powyższego wzoru i ma postać

                                 \(<\xi> = \sum_{k=1}^{n} p_k x_k\)


Zauważmy, że gdy \(p_k=1/n\;\) to wzór ten redukuje sie do poprzedniego wzoru.

Niektórzy (zwłaszcza matematycy i kręgi zbliżone do nich) stosują inne oznaczenie na wartość średnią, a mianowicie

\(<\xi> = m_1 = E \xi = E ( \xi )= \mathbb E\xi \)

Litera E pochodzi od angielskiego słowa "Expectation" oznaczającego "oczekiwanie, nadzieja". Fizycy wolą stosować swoje oznaczenie \(<\xi>\;\).


Jeżeli zmienna losowa jest typu ciągłego o gęstości prawdopodobieństwa \(p_{\xi}(x)\) to jej wartość średnia wyraża się przez całkę

                                  \(<\xi> = \int_{-\infty}^{\infty}  x p_{\xi}(x) dx\)


gdzie obszarem całkowania jest przestrzeń fazowa \(X=(-\infty, \infty)\). W przypadku przestrzeni fazowych: \([0, \infty)\) oraz \([0, 1]\) wartość średnia ma odpowiednio postać


\(<\xi> = \int_{0}^{\infty} x p_{\xi}(x) dx\)


\(<\xi> = \int_{0}^{1} x p_{\xi}(x) dx\)


Oczywiscie granice całkowania można rozciągnąć do całej osi liczb rzeczywistych \((-\infty, \infty)\), ale należy pamiętać o przedefiniowaniu gęstości rozkładu z użyciem funkcji schodkowej Heaviside'a \(\theta(x)\), podobnie jak to podaliśmy w przykładach na temat unormowania funkcji rozkładu.

W wyrażeniach dla zmiennej losowej dyskretnej i zmiennej losowej ciągłej zachodzą takie oto analogie: (1) sumy zastępowane są całkami, (2) prawdopodobieństwa \(p_k\;\) zastępowane są gęstościami prawdopodobieństw \(p_{\xi}(x)\;\), (3) możliwe wartości \(x_k\;\) zmiennej losowej zastępowane są zmienną całkowania \(x\;\).

Wartość średnia jest momentem statystycznym zmiennej losowej. Jest to pierwszy moment lub moment pierwszego rzędu. Moment k-tego rzędu \(m_k\) jest zdefiniowany przez wyrażenie


\(m_k = <\xi^k> = \int_{-\infty}^{\infty} x^k p_{\xi}(x) dx\)


Kilka pierwszych momentów znajduje klarowne zastosowanie do analizy zmiennych losowych. Drugi moment - przy badaniu odchylenia wartości zmiennej losowej od swej wartości średniej, a dokładniej


\(\sigma^2 = m_2-m_1^2 = <(\xi - m_1)^2> = <\xi^2> - <\xi>^2 \)


Wielkość ta nazywa się wariancją zmiennej losowej, momentem centralnym 2-go rzędu, średnim odchyleniem kwadratowym, średnio-kwadratowym odchyleniem. Pierwiastek kwadratowy \(\sqrt (\sigma^2)\) nazywa się odchyleniem standardowym lub dyspersją.

Moment trzeciego rzędu pojawia się w "skośności" i jest miarą asymetrii gęstości prawdopodobieństa, natomiast moment czwartego rzędu pojawia się w kurtosis, wielkości która jest miarą spłaszczenia (lub ostrości) gęstości prawdopodobieństwa wokół wartości średniej oraz służy też jako miara odstępstwa od rozkładu normalnego (gaussowskiego).



Funkcja charakterystyczna zmiennej losowej

Momenty statystyczne zmiennej losowej zostały zdefiniowane w poprzedniej części. Matematyk doszukał by się tam oszustwa matematycznego. Dlaczego? Jeżeli badamy moment statystyczny drugiego rzędu \(m_2= <\xi^2>\;\), to zauważmy że tym wyrażeniu pojawia się wielkość \(\xi^2\), którą de facto nie zdefiniowaliśmy. Wielkość \(\eta=\xi^2\;\) jest nową zmienna losową \(\eta\;\) określoną na przestrzeni probabilistycznej \(X\). Poniewaz \(\eta \;\)jest zmienna losową, więc możemy zdefiniować jej rozkład prawdopodobieństwa \(h_{\eta}(y)\;\). Mając rozkład prawdopodobieństwa \(h_{\eta}(y)\;\) można zdefiniować wartość średnią


\(<\eta> = \int_{-\infty}^{\infty} y h_{\eta}(y) dy\)


Okazuje się że średnią tą można wyrazić przez wzór


\(<\eta> = <\xi^2> = \int_{-\infty}^{\infty} x^2 p_{\xi}(x) dx\)


Z powyższych dwóch wzorów można znależć gęstość \(h_{\eta}(y)\;\) z gęstości \(p_{\xi}(x)\;\) stosując podstawienie \(y=x^2\;\) i dokonując zamiany zmiennej w drugiej całce.

Istnieje także ogólniejsza relacja: dla dowolnej funkcji \(g\;\) zmiennej losowej \(\xi\;\), to znaczy dla funkcji \(g(\xi)\;\), jej wartość średnia wynosi


\( <g(\xi)> = \int_{-\infty}^{\infty} g(x) p_{\xi}(x) dx\)


Wybierzmy teraz jako funkcję \(g\;\) funkcję exponencjalną, to znaczy \(g(x) = \exp(i\omega x)\;\), gdzie \(\omega \in R\;\) jest dowolną liczbą rzeczywistą. Uwaga: \(\omega\;\) nie ma nic wspolnego ze zdarzeniem elementarnym. Wówczas otrzymamy


\( <\exp(i \omega \xi> = \int_{-\infty}^{\infty} \exp(i\omega x) p_{\xi}(x) dx\)


Wielkość ta zależy od wartości liczby \(\omega\). Nazywa się ona funkcją charakterystyczną zmiennej losowej \(\xi\) i oznacza w następujący sposób:

                            \(C_{\xi}(\omega) = <e^{i\omega \xi}> = \int_{-\infty}^{\infty}  e^{i\omega x}  p_{\xi}(x) dx\)                            


Łatwo zauważyć, że jest to transformata Fouriera gęstości prawdopodobieństa \( p_{\xi}(x)\). Z teorii transformat Fouriera wynika, że relację powyższą można odwrócić i wyrazić gęstości prawdopodobieństwa \( p_{\xi}(x)\) przez funkcję charakterystyczną \(C_{\xi}(\omega)\). Innymi słowy, trzeba wykorzystać wzór na transformację odwrotną

\(p_{\xi}(x) = \frac{1}{2\pi} \int_{-\infty}^{\infty} e^{-i\omega x} C_{\xi}(\omega) d\omega \)

Podsumowując, można powiedzieć, że zmienna losowa może być równoważnie scharakteryzowana albo przez dystrybuantę \(F_{\xi}(x)\), albo przez gęstość prawdopodobieństwa \(p_{\xi}(x)\), albo przez funkcję charakterystyczną \(C_{\xi}(\omega)\).

Znajomość funkcji charakterystycznej jest wyjątkowo przydatna: bardzo łatwo jest wyznaczyć momenty statystyczne zmiennej losowej. Jeżeli zróżniczkujemy ze względu na \(\omega\) relację dla funkcji charakterystycznej, to otrzymamy

\(\frac{dC_{\xi}(\omega)}{d\omega} = \int_{-\infty}^{\infty} e^{i\omega x} (i x) p_{\xi}(x) dx\)

Wyrażenie to dla \(\omega = 0 \) przyjmuje postać


\(\frac{dC_{\xi}(\omega)}{d\omega}|_{\omega =0} = i \int_{-\infty}^{\infty} x p_{\xi}(x) dx = i <\xi>\)


Widać, że wartość pochodnej funkcji charakterystycznej dla \(\omega=0\) determinuje wartość średnią zmiennej losowej.

Podobnie otrzymamy


\(\frac{d^k C_{\xi}(\omega)}{d\omega^k}|_{\omega =0} = i^k \int_{-\infty}^{\infty} x^k p_{\xi}(x) dx = i^k <\xi^k>\)

Otrzymujemy w ten sposób momenty statystyczne zmiennej losowej. Zamiast uciążliwej procedury obliczania całek, które pojawiają sie w relacjach definiujących momenty statystyczne, wystarczy zróżniczkować funkcję charakterystyczną, co jest operacją technicznie znacznie łatwiejszą niż całkowanie.



Momenty statystyczne zmiennej losowej dyskretnej

Wszystkie wzory podane na momenty statystyczne i dla funkcji charakterystycznej sa słuszne zarówno dla zmiennych losowych typu ciągłego jak i typu dyskretnego. Czasami wygodniej jest uprościć powyższe formuły gdy analizujemy zmienne losowe dyskretne. W tym celu, w formułach tych należy wstawić odpowiednie wyrażenie dla gęstości rozkładu prawdopodobieństwa

\(p_{\xi} (x) = \sum_{k=1}^{n} p_k \delta(x-x_k)\)

pamiętając o całkowaniu gdy pod całką występuje delta Diraca (patrz Dodatek matematryczny)


Podamy teraz listę odpowiednich formuł dla zmiennej losowej dykretnej \(\xi = \{x_1, x_2, ..., x_n\}\;\) gdy \(Pr(\xi = x_k) = p_k\;\).

Moment statystyczny l-tego rzędu

\(<\xi^l> = \sum_{k=1}^n x_k^l \, p_k \)

Wartość średnia

                                  \(<g(\xi)> = \sum_{k=1}^n g(x_k) \,  p_k \)

Funkcja charakterystyczna


\(C_{\xi}(\omega) = < e^{i \omega \xi}> = \sum_{k=1}^n e^{i\omega x_k} \, p_k \)


Jak już powyżej stwierdziliśmy, dla zmiennej losowej dyskretnej całki zastępowane są sumami, gęstości prawdopodobieństwa przez prawdopodobieństa, a zmienna całowania przez możliwe wartości zmiennej losowej dyskretnej.



Dwie zmienne losowe

Będziemy rozważali jedna przestrzen probabilistyczną, dwie przestrzenie fazowe \(X\) i \(Y\) oraz dwa odwzorowania:

(1) odwzorowanie przestrzeni \((\Omega, F, P)\) w przestrzeń fazową \((X, {\mathcal B}_1)\) wraz z \(\sigma\)-algebrą \({\mathcal B}_1\) zbioru \(X\). Zwykle \(X=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}_1\) są zbiory Borela. Odwzorowanie to oznaczymy przez \(\xi\):


\(\xi : \Omega \to X\)


(2) odwzorowanie przestrzeni \((\Omega, F, P)\) w przestrzeń fazową \((Y, {\mathcal B}_2)\) wraz z \(\sigma\)-algebrą \({\mathcal B}_2\) zbioru \(Y\). Zwykle \(Y=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}_2\) są zbiory Borela. Odwzorowanie to oznaczymy przez \(\eta\):


\(\eta : \Omega \to Y\)


Narzucimy podobne warunki jak dla jednej zmiennej losowej: przeciwobrazy zbiorów Borela \(B_1 \in {\mathcal B}_1)\) oraz \(B_2 \in {\mathcal B}_2)\) są zdarzeniami w przestrzeni probabilistycznej \(\Omega\). Otrzymujemy w ten sposów dwie zmienne losowe \(\xi \) i \(\eta\). Interesują nas teraz łaczne rozkłady prawdopodobieństwa dwóch zmiennych losowych na tej samej przestrzeni \(\Omega\). Dla przykładu zdarzenie


\(\{\xi \in B_1, \eta \in B_2\} = \{\xi \in B_1\} \cap \{\eta \in B_2\} = \{ \eta \in B_2\} \cap \{\xi \in B_1 \} =\{ \eta \in B_2, \xi \in B_1, \} \)


oznacza tyle że zmienna losowa \(\xi\) przyjmuje wartości ze zbioru Borela \(B_1 \in {\mathcal B}_1\) i jednocześnie zmienna losowa \(\eta\) przyjmuje wartości ze zbioru Borela \(B_2 \in {\mathcal B}_2\).

Pytamy, ile wynosi prawdopodobieństwo


\(P_{\xi \eta}(B_1, B_2) = Pr(\xi \in B_1, \eta \in B_2) = P(\{\omega: \xi(\omega) \in B_1, \eta(\omega) \in B_2\})\)


Wielkość tą nazywamy łącznym rozkładem prawdopodobieństwa dwóch zmiennych losowych \(\xi \) i \(\eta\).

Podobnie definiujemy łączną dystrybuantę dwóch zmiennych losowych


\(F_{\xi \eta}(x, y) = Pr(\xi \le x, \eta \le y) = P(\{\omega: \xi(\omega) \le x, \eta(\omega) \le y\})\)


Stosując konsekwentnie powyższy zapis, możemy podać ciąg równości:


\(F_{\xi \eta}(x, y) = Pr(\xi \le x, \eta \le y) = Pr( \eta \le y, \xi \le x) = F_{\eta \xi}(y, x)\)


Pamiętajmy, że sekwencja poszczególnych oznaczeń (liter) jest tu istotna dla poprawnego zrozumienia różnych zapisów. Łatwo zauważyć, że spełnione są relacje


\(F_{\xi \eta}(x, \infty) = Pr(\xi \le x, \eta \le \infty) = Pr(\xi \le x) = F_{\xi}(x)\)


\(F_{\xi \eta}(\infty, y) = Pr(\xi \le \infty, \eta \le y) = Pr(\eta \le y) =F_{\eta}(y) \)


Skorzystaliśmy tu z tego, że prawdopodobieństwo tego iż zmienna losowa przyjmuje zawsze skończone wartości wynosi jeden. Innymi słowy, zawsze jest spełniona nierowność \(\xi \le \infty\).

Dystrybuanty \(F_{\xi}(x)\) i \(F_{\eta} (y)\) nazywaja się rozkładami zredukowanymi.



Gęstość rozkładu prawdopodobieństwa

Dla jednej zmiennej losowej, gęstość rozkładu prawdopodobieństwa była zdefiniowana jako pochodna dystrybuanty \(F_{\xi}(x)\) ze względu na \(x\). Dla dwóch zmiennych losowych, dystrybuanta \(F_{\xi \eta}(x, y)\) zależy od dwóch zmiennych \(x\) i \(y\). Więc gęstość rozkładu prawdopodobieństwa definiujemy jako pochodną ze względu na \(x\) i \(y\), czyli pochodną miweszaną drugiego rzędu:


\[p_{\xi \eta}(x, y) = \frac{\partial^2 F_{\xi \eta}(x, y)}{\partial x \, \partial y} = \frac{\partial^2 F_{\xi \eta}(x, y)}{\partial y \, \partial x}\]


Powyższe wyrażenie scałkujemy obustronnie po \(x\) i \(y\) w odpowiednich granicach:


\[\int_{-\infty}^x \int_{-\infty}^y \frac{\partial^2 F_{\xi \eta}(u, v)}{\partial u \, \partial v} du dv = F_{\xi \eta}(x, y) = \int_{-\infty}^x \int_{-\infty}^y p_{\xi \eta}(u, v) du dv \]


Związek ten pozwala wyrazić dystrybuantę przez gęstość prawdopodobieństwa. Przy operacji całkowania wykorzystaliśmy tu własności dystrybuanty:


\[F_{\xi \eta}(x, -\infty) = Pr(\xi \le x, \eta \le -\infty) = 0 \]


\[F_{\xi \eta}(-\infty, y) = Pr(\xi \le -\infty, \eta \le y) = 0 \]


\[F_{\xi \eta}(-\infty, -\infty) = Pr(\xi \le -\infty, \eta \le -\infty) = 0 \]


Ponieważ


\[F_{\xi \eta}(\infty, \infty) = Pr(\xi \le \infty, \eta \le \infty) = 1 \]


więc otrzymujemy warunek unormowania dla gęstości prawdopodobieństwa


\[ \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p_{\xi \eta}(u, v) du dv = F_{\xi \eta}(\infty, \infty) =1 \]


Prawdopodobieństwo tego, że zmienna losowa \(\xi \in (x_1, x_2]\) i zmienna losowa \(\eta \in (y_1, y_2]\) wynosi


\(Pr(\xi \in (x_1, x_2], \eta \in (y_1, y_2]) = Pr(x_1 < \xi \le x_2, y_1 < \eta \le y_2) = \int_{x_1}^{x_2} \int_{y_1}^{y_2} p_{\xi \eta}(u, v) du dv\)


Skorzystalismy tu z następującej relacji


\( Pr(x_1 < \xi \le x_2, y_1 < \eta \le y_2) \)

\( = Pr(x_1 < \xi \le x_2, \eta \le y_2) -Pr(x_1 < \xi \le x_2, \eta \le y_1) \)

\( = \left[Pr( \xi \le x_2, \eta \le y_2) - Pr( \xi \le x_1, \eta \le y_2) \right] \)

\( - \left[ Pr( \xi \le x_2, \eta \le y_1) - Pr( \xi \le x_1, \eta \le y_1)\right] \)

\( = [F(x_2, y_2) - F(x_1, y_2) ] - [ F(x_2, y_1)- F(x_1, y_1)] \, \)

\( = F(x_2, y_2) - F(x_1, y_2) - F(x_2, y_1)+ F(x_1, y_1)\,\)


oraz z własności całek oznaczonych.

Można również podać ogólniejszy wzór dla prawdopodobieństwa rozkładu, a mianowicie prawdopodobieństwo tego, że zmienne losowe \(\xi\) i \(\eta\) przyjmują wartości z pewnego zbioru \(D\) na płaszczyźnie


                              \( Pr \{ (\xi, \eta) \in D)\} = \int \int_{D} p_{\xi \eta}(x, y) dx dy \)

Innymi słowy, należy gęstość rozkładu prawdopodobieństwa scałować po obszarze \(D\).



Rozkłady zredukowane

Jeżeli znamy łączny rozkład prawdopodobieństwa \(p_{\xi \eta}(x, y)\) dwóch zmiennych losowych, wówczas znamy też wszystkie charakterystyki jednej zmiennej losowej \(\xi \) czy też \(\eta\), to znaczy znamy też rozkłady \(p_{\xi}(x)\) i \(p_{\eta}(y)\) dla tych zmiennych losowych. Te rozkłady nazywają się rozkładami zredukowanymi (marginalnymi). Jak otrzymać rozkład zredukowany \(p_{\xi}(x)\) z rozkładu łącznego \(p_{\xi \eta}(x, y)\)? Punktem wyjścia będzie związek całkowy między dystrybuantą \(F_{\xi \eta}(x, y)\)a gęstością \(p_{\xi \eta}(x, y)\) dany przez równanie,


\( F_{\xi \eta}(x, y) = \int_{-\infty}^x \int_{-\infty}^y p_{\xi \eta}(u, v) du dv \)


Z jednej strony


\( F_{\xi \eta}(x, \infty) = \int_{-\infty}^x \int_{-\infty}^{\infty} p_{\xi \eta}(u, v) du dv \)


Z drugiej strony


\( F_{\xi \eta}(x, \infty) = Pr(\xi \le x, \eta \le \infty) = \Pr(\xi \le x) = F_{\xi}(x) \)


Stąd otrzymujemy równość


\( F_{\xi}(x) = \int_{-\infty}^x \int_{-\infty}^{\infty} p_{\xi \eta}(u, v) du dv \)


Wyraziliśmy w ten sposób dystrybuantę zredukowaną przez łączną gęstość prawdopodobieństwa. Pamietamy, że pochodna dystrybuanty \( F_{\xi}(x)\) względem \(x\) jest gęstością \(p_{\xi}(x)\), więc


\( \frac{d F_{\xi}(x)}{dx} = p_{\xi}(x) = \int_{-\infty}^{\infty} p_{\xi \eta}(x, v) dv \)


Skorzystaliśmy z podstawowego twierdzenia teorii całki dotyczącego różniczkowania całki względem górnej granicy całkowania (patrz Dodatek).

Podobnie można pokazać, że


\( p_{\eta}(y) = \int_{-\infty}^{\infty} p_{\xi \eta}(u, y) du \)


Otrzymujemy następującą receptę na zredukowane rozkłady: Aby otrzymać gęstość rozkładu prawdopodobieństwa dla jednej zmiennej losowej, należy wycałkować łączną gęstość rozkładu prawdopodobieństwa dla dwóch zmiennych losowych po wszystkich możliwych wartościach drugiej zmiennej losowej.

W przypadku zmienny losowych dyskretnych obowiązuje ta sama recepta. Ale w tym przypadku odpowiednie wzory można przedstawić w innej postaci. Sprecyzujmy to zagadnienie: Rozważamy dwie zmienne losowe dyskretne o możliwych wartościach \(\xi = x_i\) i \(\eta =y_k\), to znaczy


\(\xi = \{x_1, x_2, x_3, ..., x_n\}\;\)


\(\eta = \{y_1, y_2, y_3, ..., y_m\}\;\)


W ogólności \(n \ne m\), ale możliwe są przypadki gdy \(n=m\). Łączny rozkład prawdopodobieństwa jest określony gdy znamy wszystkie prawdopodobieństwa


\(p_{ik} = Pr\{\xi=x_i, \eta = y_k\} \ge 0\)


Warunek unormowania przyjmuje teraz postać


\(\sum_{i=1}^{n}\sum_{k=1}^{m} p_{ik} = 1\)


Zredukowane prawdopodobieństwa otrzymujemy ze związków


\(p_i= Pr\{ \xi =x_i\} = \sum_{k=1}^{m} p_{ik} \)


\(q_k= Pr\{ \eta =y_k\} = \sum_{i=1}^{n} p_{ik} \)


Związki te można otrzymać z poprzednich relacji pamiętając, że gęstość rozkładu prawdopodobieństwa dla dwóch zmiennych losowych dyskretnych mozna przedstawić za pomocą wzoru


\(p_{\xi \eta}(x, y) = \sum_{i=1}^{n}\sum_{k=1}^{m} p_{ik} \delta(x-x_i) \delta(y-y_k) \)


Pamiętajmy, że dla jednej zmiennej losowej mamy przedstawienie za pomocą wzorów


\(p_{\xi}(x) = \sum_{i=1}^{n}p_{i} \delta(x-x_i)\)


\(p_{\eta}(y) = \sum_{k=1}^{m} q_{k} \delta(y-y_k) \)



Wektor zmiennych losowych

W teorii procesów stochastycznych, w teorii szeregów czasowych, w statystyce musimy rozważać wiele (czasami nieskończenie wiele) zmiennych losowych na tej samej przestrzeni probabilistycznej \((\Omega, \mathcal F, P)\). Mówimy wówczas o wektorze zmiennych losowych lub o wektorze losowym:


\({\mathbf \xi} = [\xi_1, \xi_2, ..., \xi_n]\)


lub dokładniej


\({\mathbf \xi}(\omega) = [\xi_1(\omega), \xi_2(\omega), ..., \xi_n(\omega)]\)


Jest to wektor losowy o \(n\)-składowych, gdzie


\(\xi_k : \Omega \to X_k \; k=1, 2, 3, \dots , n\)


jest mierzalnym odwzorowaniem w przestrzeń fazową \((X_k, {\mathcal B}_k)\). Zwykle \(X_k=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}_k\) są zbiory Borela na zbiorze liczb rzeczywistych.

Podobnie jak w przypadku dwóch zmiennych losowych, rozważamy łaczne rozkłady prawdopodobieństwa.


\(P_[[:Szablon:\mathbf \xi]](B_1, B_2, ..., B_n) = Pr(\xi_1 \in B_1, \xi_2 \in B_2, \ ..., \xi_n \in B_n) \)


\( = P(\{\omega: \xi_1(\omega) \in B_1, \xi_2(\omega) \in B_2, \ ..., \xi_n(\omega) \in B_n)\)

Wielkość tą nazywamy łącznym rozkładem prawdopodobieństwa \(n\)-zmiennych losowych lub n-wymiarowym rozkładem oprawdopodobieństwa. Podobnie definiujemy łączną dystrybuantę \(n\)-zmiennych losowych


\(F(x_1, x_2, ..., x_n) = Pr(\xi_1 \le x_1, \xi_2 \le x_2, ..., \xi_n \le x_n) \)


Nie będziemy używać dolnych wskaźników dla oznaczenia, o jakie zmienne losowe chodzi. Możemy powyzszą dystrybuante nazywać n-wymiarową dystrybuantą i aby to uwypuklić, czasami będziemy oznaczać to dolnym wskaźnikiem jako \(F_n(x_1, x_2,..., x_n)\). Gęstość rozkładu prawdopodobieństwa n-zmiennych losowych definiujemy przez uogólnienie wzorów dla jednej i dwóch zmiennych losowych:


\( p(x_1, x_2, ..., x_n) = \frac{ \partial^n F(x_1, x_2, ..., x_n)}{\partial x_1 \partial x_2 ... \partial x_n} \)

Możemy ją nazwać n-wymiarową gęstością rozkładu prawdopodobieństwa. Warunek unormowania ma postać


\( \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} p(x_1, x_2, ..., x_n) dx_1 dx_2...dx_n = 1 \)


Wartość średnia funkcji


\(g(\xi_1, \xi_2, ..., \xi_n) \)


wektora losowego \(\xi\) ma postać


\( <g(\xi_1, \xi_2..., \xi_n)> = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} g(x_1, x_2, ..., x_n) p(x_1, x_2, ..., x_n) dx_1 dx_2 ... dx_n \)


Funkcja charakterystyczna wektora losowego \(\xi\) jest zdefiniowana podobnie jak dla jednej zmiennej losowej. Wprowadzimy następujące oznaczenia


\({\mathbf x}= [x_1, x_2, ... , x_n] \)


\({\mathbf \omega} = [\omega_1, \omega_2, ... , \omega_n ]\)


\( d^n{\mathbf x}= dx_1 \, dx_2 \, ... \, dx_n \)


Wówczas funkcja charakterystyczna wektora losowego jest określona przez wzór


\( C_{\mathbf \xi}(\mathbf \omega) = C(\omega_1, \omega_2, \dots \omega_n) = \langle e^{i {\mathbf \omega} \cdot {\mathbf \xi(t)} } \rangle = \langle \exp \left[i \sum_{k=1}^n \omega_k \xi_k(t)\right] \rangle \)

\( = \int_{-\infty}^{\infty} e^{i {\mathbf \omega} \cdot {\mathbf x} } p_{\mathbf \xi}({\mathbf x}) d^n{\mathbf x} = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{i \sum_{k=1}^n \omega_k x_k} p(x_1, x_2, ..., x_n) \, dx_1 dx_2 \dots dx_n \)


Wyrażenie to jest n-wymiarową transformatą Fouriera gęstości rozkładu prawdopodobieństwa \(p(x_1, x_2, ..., x_n)\). Odwrotna transformata Fouriera ma postać


\( p_[[:Szablon:\mathbf \xi]]({\mathbf x}) = p(x_1, x_2, ..., x_n) = \frac{1}{(2\pi)^n} \int_{-\infty}^{\infty} e^{-i {\mathbf \omega} \cdot {\mathbf x} } C_{\xi}({\mathbf \omega}) d^n{\mathbf \omega} \)


\( = \frac{1}{(2\pi)^n} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{-i \sum_{k=1}^n \omega_k x_k} C(\omega_1, \omega_2, \dots \omega_n) \, d\omega_1 d\omega_2 \dots d\omega_n \)


Można też otrzymać zredukowane rozkłady. Mogą to być rozkłady jedno-wymiarowem \(p(x_k)\;\), dwu-wymiarowe \(p(x_i, x_k)\;\), trój-wymiarowe \(p(x_i, x_j, x_k)\;\), itd. Otrzymujemy je z n-wymiarowego rozkładu \(p(x_1, x_2, ..., x_n)\;\) poprzez wycałkowanie po odpowiednich zmiennych. Podamy kilka przykładów ilustrujących tę receptę:


\( p(x_1, x_2, x_4) = \int_{-\infty}^{\infty} p(x_1, x_2, x_3, x_4) dx_3 \)


\( p(x_1, x_4) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x_1, x_2, x_3, x_4) dx_2 dx_3 \)


\( p(x_4) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x_1, x_2, x_3, x_4) dx_1 dx_2 dx_3 \)


\( p(x_2) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x_1, x_3, x_4) dx_1 dx_3 dx_4 \)


Powyższa recepta jest uniwersalna pamiętając, że dla zmiennych losowych dyskretnych, całki zastępowane są sumami.



Rozkłady warunkowe

Prawdopodobieństwo warunkowe


Rozpatrujemy dwa zdarzenia \(A\) i \(B\). Prawdopodobieństwo zajścia zdarzenia \(A\) pod warunkiem, że zachodzi zdarzenie \(B\) zdefiniowane jest przez wzór

\[P(A \mid B) = \frac{P(A \cap B)}{P(B)} \]

Definicja ta ma sens pod warunkiem, że \(P(B) \ne 0\). Bazując na tej relacji wprowadzimy różne warunkowe rozkłady prawdopodobieństwa dla zmiennych losowych. Zaczniemy od dwóch zmiennych losowych \(\xi\) i \(\eta\). Uogólnienia będą oczywiste.


1. Dystrybuanty warunkowe

Niech \(M\) będzie zdarzeniem i niech \(P(M) > 0\). Wówczas


\[F_{\xi}(x|M) = P\{ \xi\le x|M\} = \frac{ P\{ \xi\le x, M\}}{P(M)}\]


\[F_{\xi \eta}(x, y|M) = P\{ \xi\le x, \eta \le y |M\} = \frac{ P\{ \xi\le x, \eta\le y, M\}}{P(M)}\]


2. Warunkowe gęstości rozkładów prawdopodobieństwa definiuje się podobnie jak (bezwarunkowe) gęstości rozkładów prawdopodobieństwa, a mianowicie są to pochodne warunkowych dystrybuant:


\[p_{\xi}(x|M) = \frac{\partial F_{\xi}(x|M)}{\partial x} \]


\[p_{\xi \eta}(x, y|M) = \frac{\partial^2 F_{\xi \eta}(x, y|M) }{\partial x \,\partial y} \]


3. Niech \(M=\{\eta \le y\}\,\). Wówczas


\[F_{\xi}(x|\eta \le y) = \frac{ P\{ \xi\le x, \eta \le y\}}{P\{\eta \le y\}} = \frac{F_{\xi \eta}(x, y)}{F_{\eta}(y)}\]


Relacja ta jest podobna do wzoru definiującego prawdopodobieństwo warunkowe: Jest to prawdopodobieństwo iloczynu dwóch zdarzeń \(\{ \xi\le x\}\) i \(\{ \eta\le y\}\) dzielone przez prawdopodobieństwo zadrzenia \(\{ \eta\le y\}\).



4. Niech \(M=\{y_1 < \eta \le y_2\}\,\) oraz niech

\(P(M) = P\{y_1 < \eta \le y_2\} = F_{\eta}(y_2) - F_{\eta}(y_1) \ne 0\,\).


Wówczas


\[F_{\xi}(x|y_1 < \eta \le y_2) = \frac{ P\{ \xi\le x, y_1 < \eta \le y_2\}}{P\{y_1 < \eta \le y_2\}} = \frac{F_{\xi \eta}(x, y_2) - F_{\xi \eta}(x, y_1)}{F_{\eta}(y_2) - F_{\eta}(y_1)}\]


5. Przykład najważniejszy: Niech \( M=\{\eta = y\}\, \) oraz niech \(p_{\eta}(y) \ne 0 \,\).

Zdefiniujemy wielkość


\[F_{\xi}(x|\eta = y) = \lim_{h \to 0} F_{\xi}(x|y< \eta \le y+h)\]


Jest to prawdopodobieństwo tego, że zmienna losowa \(\xi \le x\) pod warunkiem, że zmienna losowa \(\eta\,\) przyjmuje konkretna wartość \(y\) i zapisujemy to w postaci \(\eta = y\,\). Korzystając z poprzedniego przykładu możemy napisać


\[F_{\xi}(x|\eta =y) = \lim_{h\to 0} \frac{F_{\xi \eta}(x, y+h) - F_{\xi \eta}(x, y)}{F_{\eta}(y+h)-F_{\eta}(y)} = \frac{ \frac{\partial F_{\xi\eta}(x, y)}{\partial y}}{ \frac{dF_{\eta}(y)}{dy}}\]

Skorzystaliśmy z definicji pochodnej zwyczajnej funkcji jednej zmiennej i pochodnej cząstkowej funkcji wielu zmiennych. Przypomnimy relację z rozdziału "Dwie zmienne losowe, Rozkłady zredukowane"


\[ F_{\xi \eta}(x, y) = \int_{-\infty}^x \int_{-\infty}^y p_{\xi \eta}(u, v) du dv \]


Korzystamy teraz z podstawowego twierdzenia w teorii całek i zróżniczkujemy powyższą relację względem górnej granicy całkowania czyli zmiennej \(y\),


\[ \frac{\partial F_{\xi\eta}(x, y)}{\partial y} = \int_{-\infty}^x p_{\xi \eta}(u, y) du \]

Pamietamy także, że

\(\frac{dF_{\eta}(y)}{dy}= p_{\eta}(y)\)


Wyznaczmy teraz warunkową gęstość rozkładu prawdopodobieństwa zmiennej losowej \(\xi\) pod warunkiem, że zmienna losowa \(\eta =y\):


\[p_{\xi}(x|\eta=y) = \frac{\partial F_{\xi \eta}(x, y)}{\partial x} = \frac{p_{\xi \eta}(x, y)}{p_{\eta}(y)} \]


Przepiszemy go w uproszczonej postaci, mając nadzieję, że czytelnik będzie pamiętać o jego prawidłowej interpretacji:


                           \(p(x|y) =  \frac{p(x, y)}{p(y)} \)


Jeżeli mamy wektor zmiennych losowych, to możemy wyznaczać wielowymiarowe rozkłady warunkowe. Poniżej podamy kilka przykładów takich rozkładów:


\[p(x|y, z) = \frac{p(x, y, z)}{p(y, z)} \]


\[p(x, y| z) = \frac{p(x, y, z)}{p(z)} \]


\[p(x_1, x_2, x_3|x_4, x_5, x_6, x_7) = \frac{p(x_1, x_2, x_3, x_4, x_5, x_6, x_7)}{p(x_4, x_5, x_6, x_7)} \]


Z powyższych relacji wynika prosta reguła wyznaczania rozkładów warunkowych: gęstość warunkowa to iloraz dwóch gęstości, gęstości łącznej podzielonej przez gęstość zmiennych losowych występujących w warunku. W ogólności


\(p(x_1, \dots, x_k|x_{k+1}, \dots, x_n) = \frac{p(x_1, \dots, x_k, x_{k+1}, \dots, x_n)}{p(x_{k+1}, \dots, x_n)} \)


lub w innym zapisie


\(p(x_n, \dots, x_{k+1}|x_{k}, \dots, x_1) = \frac{p(x_n, \dots, x_{k+1}, x_{k}, \dots, x_1)}{p(x_{k}, \dots, x_1)} \)


W szczególności zachodzi

\(p(x_n|x_{n-1}, \dots, x_1) = \frac{p(x_n, x_{n-1}, \dots, x_1)}{p(x_{n-1}, \dots, x_1)} \)


Stąd


\(p(x_n, x_{n-1}, \dots, x_1) = p(x_n| x_{n-1}, \dots, x_1)\, p(x_{n-1}, \dots, x_1) \)


Możemy teraz \(p( x_{n-1}, \dots, x_1)\) wyrazić przez podobny związek zmieniając \(n \to n-1\). Po wstawieniu do powyższego wzoru otrzymy


\(p(x_n, x_{n-1}, \dots, x_1) = p(x_n| x_{n-1}, \dots, x_1)\, p(x_{n-1}|x_{n-2}, \dots, x_1) \,p(x_{n-2}, \dots, x_1) \)


Kontunuując tą procedurę otrzymamy

\(p(x_n, x_{n-1}, \dots, x_1) = p(x_n| x_{n-1}, \dots, x_1)\,\)


\( \times p(x_{n-1}|x_{n-2}, \dots, x_1)\, \dots p(x_3|x_2, x_1)\,p(x_2|x_1)\, p(x_1) \)


Innymi słowy, gęstość wielowymiarową można otrzymać z warunkowych gęstości jednowymiarowych \(p(x_i| x_{i-1}, \dots, x_1)\, \) oraz z jednowymiarowej gęstości \(p(x)\).


Z powyższych relacji oraz wzorów redukcyjnych dla gęstości wielowymiarowych wynikają związki przydatne w teorii procesów stochastycznych. Przytoczymy tu najważniejszy z nich

                    \(p(x_2|x_0) = \int_{-\infty}^{\infty} p(x_2|x_1, x_0) p(x_1|x_0) dx_1 \)


Dowód tej relacji jest prosty. W pierwszym rzędzie po całką korzystamy z relacji dla gęstości warunkowych :


\[ \int_{-\infty}^{\infty} \frac{p(x_2, x_1, x_0)}{ p(x_1, x_0)} \; \; \frac{ p(x_1, x_0)}{p(x_0)} dx_1 = \int_{-\infty}^{\infty} \frac{p(x_2, x_1, x_0)}{p(x_0)} dx_1 \]

\[ = \frac{1}{p(x_0) }\int_{-\infty}^{\infty} p(x_2, x_1, x_0) dx_1 = \frac{p(x_2, x_0)}{p(x_0) } = p(x_2|x_0) \]


Jeżeli dla gęstości warunkowej zachodzi relacja

\[ p(x_2|x_1, x_0) = p(x_2|x_1)\; \]

wówczas powyższy wzór ma postać


         \(p(x_2|x_0) = \int_{-\infty}^{\infty} p(x_2|x_1) p(x_1|x_0) dx_1 \)


Odpowiednik tego równania w teorii procesów stochastycznych nazywa się równaniem Chapmana-Kołmogorowa, które w dalszych rozdziałach wykorzystamy do analizy procesów stochastycznych Markowa.



Zmienne losowe niezależne

Jeżeli rzucamy dwukrotnie monetą, to wynik w drugim rzucie nie zależy od wyniku w pierwszym rzucie (oczywiście zakładamy, że nie oszukujemy). Jeżeli wynik w pierwszym rzucie oznaczymy jako \(\xi\), a w drugim rzucie jako \(\eta\) i nazwiemy je zmiennymi losowymi, to możemy powiedzieć że te dwie zmienne losowe są od siebie niezależne. To intuicyjne pojęcie niezależności można sprecyzować matematycznie dla dowolnych zmiennych losowych. Jeżeli mamy dwie dowolne zmienne losowe \(\xi\) i \(\eta\), to powiemy, że są one niezależne gdy dla dowolnych zbiorów Borela \(B_1 \in X\) oraz \(B_2 \in Y\) w przestrzeni fazowej \(X\) zmiennej losowej \(\xi\) i przestrzeni fazowej \(Y\) zmiennej losowej \(\eta\) zachodzi relacja


\(P_{\xi \eta}(B_1, B_2) = Pr(\xi \in B_1, \eta \in B_2) = Pr(\xi \in B_1) Pr(\eta \in B_2) = P_{\xi}(B_1) P_{\eta}(B_2)\)


Inaczej mówiąc, zdarzenia \(\{\xi \in B_1\}\) i \(\{\eta \in B_2\}\) są niezależne i łączny rozkład prawdopodobieństwa jest iloczynem rozkładów dla poszczególnych zmiennych losowych. Jeszcze inaczej mówiąc, dwu-wymiarowy rozkład prawdopodobieństwa jest iloczynem rozkładów jedno-wymiarowych. Jeżeli jako zbiory \(B_1\) i \(B_2\) wybierzemy półproste \(B_1= (-\infty, x]\) i \(B_2= (-\infty, y]\) to dla niezależnych zmiennych losowych zachodzi

\(F_{\xi \eta}(x, y) = F_{\xi}(x) F_{\eta}(y)\)

Różniczkując to wyrażenie względem \(x\), a następnie względem \(y\) (lub odwrotnie) stwierdzamy, że

\(p_{\xi \eta}(x, y) = p_{\xi}(x) p_{\eta}(y)\)


Tak więc dla zmiennych losowych niezależnych wszelkie dwu-wymiarowe (łączne) rozkłady są iloczynem rozkładów jedno-wymiarowych (zredukowanych).

Dla wektora zmiennych losowych

\(\xi\) \(= [\xi_1, \xi_2, \xi_3, ..., \xi_n]\)

zmienne losowe są między sobą niezależne, gdy łaczny rozkład prawdopodobieństwa.

\(P_{\xi}(B_1, B_2, ..., B_n) = Pr(\xi_1 \in B_1, \xi_2 \in B_2, ..., \xi_n \in B_n) \)

\( = Pr(\xi_1 \in B_1) Pr(\xi_2 \in B_2) ... Pr(\xi_n \in B_n) = P_{\xi_1}(x_1) P_{\xi_2}(x_2) ... P_{\xi_n}(x_n)\)

Podobnie łączna dystrybuanta jest iloczynem jedno-wymiarowych dystrybuant dla poszczególnych zmiennych losowych

\(F(x_1, x_2, ..., x_n) = F_{\xi_1}(x_1) F_{\xi_2}(x_2) ... F_{\xi_n}(x_n)\)

Różniczkując to wyrażenie po kolei względem \(x_1, x_2, ... x_n\) (mozna jednokrotnie różniczkować względem każdej ze zmiennych w dowolnej kolejności) stwierdzamy, że

\(p(x_1, x_2, ..., x_n) = p_{\xi_1}(x_1) p_{\xi_2}(x_2) ... p_{\xi_n}(x_n)\)

Uwaga: to nie oznacza, że teoria zmiennych losowych niezależnych upraszcza się do teorii jednej zmiennej losowej.


Dla zmiennych losowych niezależnych, funkcja charakterystyczna wektora losowego ma postać

\(C_{\xi}(\omega) = C(\omega_1, \omega_2, \dots \omega_n) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{i \sum_{k=1}^n \omega_k x_k} p(x_1, x_2, ..., x_n) \, dx_1 dx_2 \dots dx_n \)

\(= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}... \int_{-\infty}^{\infty} e^{i \omega_1 x_1}\,e^{i \omega_2 x_2} ... \,e^{i \omega_n x_n} \, p_{\xi_1}(x_1) \,p_{\xi_2}(x_2) ... \, p_{\xi_n}(x_n) \, dx_1 \,dx_2 \dots dx_n \)

\( = \int_{-\infty}^{\infty} dx_1 e^{i \omega_1 x_1}\, p_{\xi_1}(x_1) \int_{-\infty}^{\infty} dx_2 \, e^{i \omega_2 x_2} \, p_{\xi_2}(x_2) \dots \int_{-\infty}^{\infty} dx_n e^{i \omega_n x_n}p_{\xi_n}(x_n) \)

\( = C_{\xi_1}(\omega_1) C_{\xi_2}(\omega_2) \dots C_{\xi_n}(\omega_n) \)

czyli funkcja charakterystyczna wektora losowego \({\mathbf \xi}\) jest iloczynem funkcji charakterystycznych składowych \(\xi_i\) wektora losowego


                     \(C(\omega_1, \omega_2, \dots \omega_n)  =  C_{\xi_1}(\omega_1)  C_{\xi_2}(\omega_2)  \dots C_{\xi_n}(\omega_n)   \)


Często bywa tak, że różne zmienne losowe \(\xi_i\) mają ten sam rozkład prawdopodobieństwa \(p(x) = p_{\xi_i}(x)\). Tak jest, jeżeli rzucamy n-razy monetą. Wówczas wynik i-tego rzutu nie zależy od wyniku k-tego rzutu. Mówimy wówczas o zmiennych losowych niezależnych i o identycznym rozkładzie (ang. independent and identically distributed: iid). Relacja powyższa jest często wykorzystywana i ma ogromne zastosowanie w różnych działach nauki i praktyki, w szczegolności jest podstawą szeregu konkluzji w statystyce.