Z Skrypty dla studentów Ekonofizyki UPGOW
(→Momenty statystyczne zmiennej losowej) |
(→Momenty statystyczne zmiennej losowej) |
||
Linia 865: | Linia 865: | ||
<math><\xi> = \int_{0}^{1} x p_{\xi}(x) dx</math> | <math><\xi> = \int_{0}^{1} x p_{\xi}(x) dx</math> | ||
- | Oczywiscie granice całkowania można | + | Oczywiscie granice całkowania można rozciągnąć do całej osi liczb rzeczywistych <math>(-\infty, \infty)</math>, ale należy pamiętać o przedefiniowaniu gęstości rozkładu z użyciem funkcji schodkowej Heaviside'a <math>\theta(x)</math>, podobnie jak to podaliśmy w przykładach na temat unormowania funkcji rozkładu. |
===Wiele zmiennych losowych-Wektor zmiennych losowych=== | ===Wiele zmiennych losowych-Wektor zmiennych losowych=== |
Wersja z 21:56, 16 lut 2010
Jerzy Łuczka
PROCESY I ZJAWISKA LOSOWE
Skrypt dla studentów ekonofizyki
Wstęp
- \(\iiint{}U_{H}=\frac{IB}{hnq}\not=R_{H}\cdot\frac{IB}{h^{e\cos}} h ^\sin _7 \not=\sum_{n=\infty}^k{A\over{({b\over z}+q)}W}v\Omega \pi\)
Wielki sukces fizyki, a ogólniej mówiąc nauk przyrodniczych, polega na tym, że jej odkrycia przyczyniły się do rozwoju cywilizacyjnego naszej planety. Sukces ten jest związany z tym, że podstawowe równania fizyki opisujące dynamikę układów cechuje własność determinizmu. Co to oznacza? Ogólnie mówiąc oznacza to możliwość przewidywania i to jednoznacznego przewidywania. Jest to konsekwencją twierdzeń matematycznych o jednoznaczności rozwiązań równań różniczkowych. Na tym opiera się determinizm mechaniki klasycznej i elektrodynamiki. Determinizm mechaniki kwantowej należy nieco inaczej interpretować. Niezależnie od interpretacji, zarówno przewidywania mechaniki kwantowej jak i kwantowej teorii cząstek elementarnych znakomicie potwierdzone są przez liczne doświadczenia. My możemy przewidzieć tor cząstki, określić precyzyjnie ruch rakiety, generować fale elektromagnetyczne o określonej długości, wyznaczyć różnice między poziomami energetycznymi w atomie wodoru, zbudować tranzystor, układ scalony, komputer, telefon komórkowy, itd, itp. Jeżeli podstawowe prawa fizyki opisują procesy deterministyczne to dlaczego pojawia się losowość wielu zjawisk obserwowanych każdego dnia? Skąd jest ta losowść i ten brak przewidywalności różnych procesów zachodzących na naszej planecie, w naszym kraju, w naszej rodzinie, w naszym organizmie? Odpowiedź nie jest prosta. Ogólnie mówiąc źródłem losowości jest złożoność. Ale złożoność nie jest wystarczająca. Wszelkie formułowane odpowiedzi nie są i nigdy nie będą pełne. Ja przytoczę dwa podstawowe źródła losowości:
A. Własność chaotyczności
B. Makroskopowość układów (kolosalna liczba stopni swobody)
Własność chaotyczności uzmysławia nam złudność pojmowania determinizmu w mechanice klasycznej. Układy makroskopowe składają się z niesłychanie wielkiej liczby składników (cząstek, molekuł, makromolekuł. Ich opis metodami mechaniki (klasycznej lun kwantowej) jest nieefektywny. Co mam na myśli? Czy jestem w stanie analizowac układ równań różniczkowych zwyczajnych drugiego rzędu dla 1023 cząstek. Czy jestem w stanie podać \(2\times 10^{23}\) położeń początkowych i prędkości początkowych wszystkich cząstek? Czy jestem w stanie śledzić trajektorie wszystkich cząstek? Odpowiedź jest oczywista: NIE! Dlatego powstała inna efektywna metoda oparta na teorii nazywanej fizyką statystyczną. W tej teorii nie podajemy wszystkich położeń i prędkości cząstek, ale wielkość którą nazywamy rozkładem prawdopodobieństwa położeń i prędkości. Teoria ta jest efektywna. Ale nie tkwi w niej determinizm mechaniki Newtona. Tkwi w niej losowość.
Zbiory
PODSTAWOWE POJĘCIA NA TEMAT ZBIORÓW
Często będziemy posługiwali się pojęciem zbiorów i będziemy dokonywać różnych operacji na zbiorach. Dlatego też przypomnimy podstawowe pojęcia i wprowadzimy oznaczenia, którymi będziemy stosować w dalszej części książki.
Oznaczmy przez \(\Omega\) zbiór, który nazwiemy przestrzenią. Niech \(A, B, ...\) będa podzbiorami zbioru \(\Omega\).
Sumą zbiorów nazywamy zbiór złożony ze wszystkich elementów należących do któregokolwiek z sumowanych zbiorów. Suma zbiorów \(A \) i \( B \) jest oznaczana przez \(A\cup B\). Tak więc:
- \(A\cup B=\{x:x\in A\vee x\in B\}\)
Zapis ten odczytujemy następująco: jest to zbiór tych elementów x które należą do zbioru \(A\) lub należą do zbioru \(B\).
Iloczyn (lub część wspólna, przekrój, przecięcie) zbiorów \( A \) i \( B \) to zbiór, do którego należą te elementy zbioru \( A \), które należą również do \( B \). Część wspólna zbiorów \( A \) i \( B \) jest oznaczana przez \(A\cap B\). Tak więc:
- \(A\cap B=\{x:x\in A\wedge x\in B\}\).
Zapis ten odczytujemy następująco: jest to zbiór tych elementów x które należą do zbioru \(A\) i jednocześnie należą do zbioru \(B\).
Różnica zbiorów A\B - to zbiór złożony z tych elementów zbioru A, które nie należą do B:
- \(A \setminus B = \{ x : x\in A \and x \notin B\}\).
Zapis ten odczytujemy następująco: jest to zbiór tych elementów x które należą do zbioru \(A\) lecz nie należą do zbioru \(B\).
Dopełnieniem \(A'\) zbioru \(A\) (w przestrzeni \(\Omega\)) nazywa się różnica zbiorów
- \(A'=\Omega \setminus A = \{x \in \Omega\colon x \notin A\}\),
Zapis ten odczytujemy następująco: jest to zbiór tych elementów x z przestrzeni \(\Omega\), które nie należą do zbioru \(A\).
Zbiór pusty jest to taki "dziwny" zbiór, który nie zawiera żadnych elementów. Oznaczany jest symbolem \(\empty\) lub \(\varnothing\).
Zbiory rozłączne – dwa zbiory \(A\) i \(B \) są rozłączne jeżeli ich część wspólna jest zbiorem pustym:
- \(A\cap B=\empty\).
Inaczej mówiąc, zbiory te nie mają wspólnych elementów.
Na przykład, zbiory {1 ,2, 5, 8, 9} i {4, 6} są rozłączne, natomiast zbiory {2, 3, 5, 7, 8} i {2, 5, 6} – nie.
Rodzinę zbiorów| \((A_i)_{i\in I}\) nazywa się rodziną zbiorów parami rozłącznych, jeśli każde dwa różne zbiory tej rodziny są rozłączne: \[i\ne j \implies A_i\cap A_j = \emptyset\]
Elementy teorii prawdopodobieństa
Zdarzenia, procesy i zjawiska losowe (przypadkowe, stochastyczne) opisywane są przez teorię prawdopodobieństwa. W odróżnieniu od procesów deterministycznych, nie można jednoznacznie przewidywać wyników zdarzeń przypadkowych i ewolucji procesów losowych. Losowość opisujemy za pomocą prawdopodobieństwa zajścia określonych zdarzeń.
Przestrzeń probabilistyczna
Teoria prawdopodobieństwa bazuje, jak każda teoria matematyczna, na odpowiedniej przestrzeni. Matematycy analizowali i nadal analizują dziesiątki przestrzeni, jak na przykład przestrzenie liczbowe, wektorowe, topologiczne, unormowane, unitarne, metryczne, Banacha, Frecheta, Hausdorffa, Sobolewa, itd, itp.
Dla przykładu, dla teorii funkcji bardzo użyteczna jest przestrzeń metryczna. Przestrzeń metryczna jest takim zbiorem \( X \), w którym można zdefiniować odległość \( d(x, y)\, \) między dwoma jej elementami \( x \in X \) i \( y \in X \). Odleglość jest funkcją dwóch zmiennych \( x \) i \( y \) oraz posiada kilka charakterystycznych cech, np. odległość nie może byc ujemna. Jeżeli zdefiniujemy odległość w zbiorze \( X \), wówczas możemy w tym zbiorze określić zbieżność ciągów i wprowadzić pojęcie ciągłości funkcji. Możemy też zdefiniować pojęcie pochodnej funkcji i całki oznaczonej. Możemy dokonywać wielu innych operacji na funkcjach. Widać z tego przykładu, że pojęcie metryki jest bardzo użyteczne i zdefiniowanie metryki w jakimś zbiorze niesłychanie wzbogaca ten zbiór. Matematycy lubią definiować przestrzeń metryczna jako parę \( (X, d)\,\), tzn. jest to zbiór X wraz z określoną w niej odległościa, czyli metryką \( d=d(x, y) \,\).
Podobnie jest w teorii prawdopodobieństwa. Taka użyteczną przestrzenią jest przestrzenią probabilistyczną. Jest to zbiór, w którym określone są dodatkowe elementy, analogiczne do metryki. Dokładniej mówiąc przestrzeń ta nie jest parą jak w przypadku przestrzeni metrycznej, ale trójką, tzn. składa sie na nią trzy elementy
\( (\Omega, {\mathcal F}, P)\;\)
Rozszyfrujmy poszczególne elementy tej trójki.
\(\Omega\): przestrzeń zdarzeń elementarnych
Pierwszy element trójki \((\Omega, \mathcal F, P)\), tzn. zbiór \(\Omega\) może składać się ze skończonej lub nieskończonej ilości elementów i nazywa się zbiorem zdarzeń elementarnych. Element \(\omega \in \Omega\) nazywa się zdarzeniem elementarnym lub inaczej mówiąc możliwym wynikiem doświadczenia.
Przykłady zbioru zdarzeń elementarnych \(\Omega\)
1. Doświadczenie polega na jednokrotnym rzucie monetą. Są dwa możliwe wyniki: wypadnie orzeł lub reszka. Wynikowi "orzeł" możemy przyporządkować oznaczenie \(\omega_1\), natomiast wynikowi "reszka" - \(\omega_2\). Tak więc zbiór zdarzeń elementarnych składa się z 2 elementów:
\[\Omega =\{\omega_1, \omega_2\}\;\].
2. Doświadczenie polega na dwukrotnym rzucie monetą. Teraz możliwe są cztery wyniki: \(\omega_1 =\)(orzeł, orzeł), \(\omega_2 =\)(orzeł, reszka), \(\omega_3 =\)(reszka, orzeł) i \(\omega_1 =\)(reszka, reszka). Np. \(\omega_3 =\) =(reszka, orzeł) oznacza, że w pierwszym rzucie wypadła reszka, natomiast w drugim rzucie - orzeł.Tak więc zbiór zdarzeń elementarnych składa się z 4 elementów: \(\Omega =\{\omega_1,\omega_2,\omega_3, \omega_4\}\).
3. Doświadczenie polega na jednokrotnym rzucie kostką do gry w popularnego "chińczyka". Wynikiem może być jedno oczko, albo dwa oczka, albo trzy oczka, albo cztery oczka, albo pięć oczek, albo sześć oczek. Przyporządkowując liczbie oczek oznaczenie \(\omega_n \) dla \( n=1, 2, 3, 4, 5, 6 \) otrzymamy 6-elementowy zbiór zdarzeń elementarnych
\[\Omega =\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5, \omega_6 \}\;\].
4. Doświadczenie znowu polega na jednokrotnym rzucie kostką do gry w "chińczyka". Tym razem interesuje mnie tylko to, czy wypadnie parzysta liczba (to znaczy 2 lub 4 lub 6) czy nieparzysta liczba (to znaczy 1 lub 3 lub 5). Przyporządkowując nieparzystej liczbie oczek oznaczenie \(\omega_1 \), natomiast parzystej liczbie oczek oznaczenie \(\omega_2 \) otrzymamy 2-elementowy zbiór zdarzeń elementarnych
\[\Omega =\{\omega_1, \omega_2 \}\;\].
5. Podzielę rok na doby. Będę analizował momenty czasu \(t_1, t_2, t_3, ...\), gdy ktoś do mnie dzwoni w ciągu doby. Moment czasu \(t_i\) jest losowy oraz \(t_i \in [0, 24]\). W tym przykładzie moment czasu \(t_i=\omega_i\) jest zdarzeniem elementarnym, a
\[\Omega = [0, 24]\;\]
jest przestrzenią zdarzeń elementarnych. Przestrzeń ta jest umownym interwałem czasowym, w którym chcę badać statystykę rozmów telefonicznych.
6. Substancje radioaktywne emitują od czasu do czasu cząstki. Moment emisji cząstki jest losowy i może zajść w przedziale czasu \([t_0, \infty)\), gdzie \(t_0\) jest początkiem detekcji emitowanych cząstek. Dla wygody przyjmujemy \(t_0=0\). Wówczas zbiór zdarzeń elementarnych to nieskończony przedział
\[\Omega = [0, \infty)\;\]
7. Cząstka (nazywana cząstką Browna) porusza się w wodzie i zderza się z cząsteczkami wody. Ruch takiej cząstki Browna wydaje się być losowy i bardzo nieregularny. Dla fizyka modelującego zachowanie się cząstki Browna, przestrzenią zdarzeń elementarnych może być zbiór wszystkich możliwych położeń czastki, czyli przestrzeń trójwymiarowa \(\Omega = RxRxR=R^3\). Gdybyśmy ograniczyli się do możliwych ruchów tylko w jednym wymiarze (czyli na prostej rzeczywistej) to przestrzenią zdarzeń elementaranych byłby zbiór liczb rzeczywistych
\[\Omega = R = (-\infty, \infty)\;\]
Trzy ostatnie przykłady sa odmienne od czterech pierwszych przykładów. Zbiór \(\Omega = [0, 24]\), zbiór \(\Omega = [0, \infty)\) i zbiór \(\Omega = (-\infty, \infty)\) składają się z nieskończenie wielu elementów, tzn. z nieskończenie wielu liczb rzeczywistych z ograniczonego przedziału \( [0, 24]\), nieograniczonego przedziału \( [0, \infty)\) lub nieograniczonego przedziału \( (-\infty, \infty)\). Zbiory te nieskończenie wielu liczb są pod wieloma względami inne niż zbiór nieskończenie wielu liczb naturalnych czy całkowitych. Mówimy, że są one mocy continuum. Natomiast zbiór nieskończenie wielu liczb naturalnych jest przeliczalny. Gdyby przestrzeń zdarzeń elementarnych była równoliczna ze zbiorem liczb naturalnych, to też zawierałaby nieskończenie wiele elementów. Jednakże obie przestrzenie probabilistyczne są radykalnie różne. O tym będzie mowa w dalszej części wykładów.
\({\mathcal F}\): rodzina podzbiorów zbioru \(\Omega\)
Drugi element trójki \((\Omega, \mathcal F, P)\), tzn. zbiór \({\mathcal F}\) jest tzw. \(\sigma\)-algebrą podzbiorów zbioru \(\Omega\).
Innymi słowy, elementami zbioru \({\mathcal F}\) są podzbiory zbioru zdarzeń elementarnych \(\Omega\), ale niekoniecznie wszystkie możliwe podzbiory. Rodzina tych podzbiorów powinna spełniać określone własności. A mianowicie:
- zbiór pusty należy do rodziny \(\mathcal{F}\),
- dopełnienie \(A'\) zbioru \(A\) należącego do \(\mathcal{F}\) też należy do \(\mathcal{F}\),
- suma przeliczalnie wielu zbiorów z \(\mathcal{F}\) też należy do \(\mathcal{F}\).
Elementy zbioru \({\mathcal F}\) nazywają się zdarzeniami.
Często w literaturze \(\sigma\)-algebra zbiorów nazywa się też \(\sigma\)-ciałem zbiorów.
Dlaczego żądamy, aby spełnione były powyższe (na pierwszy rzut oka nieco dziwaczne) własności? Otóż dlatego, że chcemy przeprowadzać różne operacje na elementach rodziny \({\mathcal F}\), czyli na zdarzeniach i chcemy w wyniku takich operacji otrzymywać także zdarzenia. Dlatego też w ogólnym przypadku nie koniecznie należy rozpatrywać wszystkie podzbiory zbioru \(\Omega \), ale tylko takie podzbiory, które są zdarzeniami. Aby uzmysłowic sobie, o co mi chodzi, posłużę się bardziej elementarnym i odmiennym przykładem.
Rozważmy zbiór liczb naturalnych i niech \(N\) i \(M\) będą dwiema liczbami naturalnymi. Suma \(N+M\) oraz iloczyn \(N M\) też są liczbami naturalnymi. Jeżeli chcemy dokonywac tylko te dwie operacje na liczbach naturalnych, to w wyniku operacji dodawania i iloczynu dostaniemy zawsze liczby naturalne. Jeżeli natomiast chcemy dokonywać operacji odejmowania dwóch liczb naturalnych, to nie zawsze otrzymamy liczbę naturalną, ponieważ np. 10-25=-15 nie jest liczbą naturalną. Jeżeli zamiast liczb naturalnych, rozważać będziemy zbiór liczb całkowitych, to w wyniku wszystkich trzech operacji otrzymamy zawsze liczbę całkowita. Z kolei gdybyśmy chcieli rozpatrywać jeszcze operację dzielenia dwóch liczb z pewnego zbioru i otrzymywać zawsze liczby z tego zbioru, to musimy rozważać zbiór liczb wymiernych. Widać z tego, że w zależności od tego, jakie operacje będą wykonywane na elementach pewnego zbioru, musimy też odpowiednio dobrać ten zbiór. Innymi słowy, ten zbiór powinien posiadać odpowiednią strukturę, odpowiednie własności.
Przykłady \(\sigma\)-algebry \(\mathcal F\)
Powyzej podaliśmy pięć przykładów zbioru zdarzeń elementarnych \(\Omega\). Dla niektórych z tych przykładów podamy możliwe zbiory \(\mathcal F\).
1. Dla pierwszego przykładu, przy jednokrotnym rzucie monetą zbiorem zdarzeń elementarnych jest zbiór
\[\Omega =\{\omega_1, \omega_2\}\;\]
Ponieważ \(\mathcal F\) jest rodziną podzbiorów zbioru \(\Omega\), więc otrzymamy następujące możliwe podzbiory zbioru \(\Omega\):
-
-
- zbiór pusty \(\emptyset\) (nie zawiera on żadnego elementu),
- zbiory jednoelementowe \(\{\omega_1\}\) oraz \(\{\omega_2\}\),
- zbiór dwuelementowy \(\{\omega_1, \omega_2\}\) czyli zbiór \(\Omega\)
-
Zauważmy, że \(\mathcal F\) zawiera 4 podzbiory, czyli \(2^2\). To samo otrzymujemy dla przykładu 4.
2. Dla trzeciego przykładu, przy jednokrotnym rzucie kostką zbiorem zdarzeń elementarnych jest zbiór
\[\Omega =\{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\;\]
Możliwymi podzbiorami tego zbioru są następujące podzbiory
(a) zbiór pusty \(\emptyset\)
(b) wszystkie możliwe zbiory jedno-elementowe
-
-
- \(\{\omega_1\}, \{\omega_2\}, \{\omega_3\}, \{\omega_4\}, \{\omega_5\}, \{\omega_6\}\)
-
(c) wszystkie możliwe zbiory dwu-elementowe
-
-
- \(\{\omega_1, \omega_2\}\), \(\{\omega_1, \omega_3\}\), \(\{\omega_1, \omega_4\}\), \(\{\omega_1, \omega_5\}\), \(\{\omega_1, \omega_6\}\)
-
-
-
- \(\{\omega_2, \omega_3\}\), \(\{\omega_2, \omega_4\}\), \(\{\omega_2, \omega_5\}\), \(\{\omega_2, \omega_6\}\)
-
-
-
- \(....................................................\)
-
-
-
- \(\{\omega_5, \omega_6\}\)
-
(d) wszystkie możliwe zbiory trój-elementowe
-
-
- \(\{\omega_1, \omega_2, \omega_3\}\), \(\{\omega_1, \omega_2, \omega_4\}\), \(\{\omega_1, \omega_2, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_6\}\)
-
-
-
- \(\{\omega_1, \omega_3, \omega_4\}\), \(\{\omega_1, \omega_3, \omega_5\}\), \(\{\omega_1, \omega_3, \omega_6\}\)
-
-
-
- \(....................................................\)
-
-
-
- \(\{\omega_4, \omega_5, \omega_6\}\)
-
(e) wszystkie możliwe zbiory cztero-elementowe
-
-
- \(\{\omega_1, \omega_2, \omega_3, \omega_4\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_6\}\),
-
-
-
- \(....................................................\)
-
-
-
- \(\{\omega_3, \omega_4, \omega_5, \omega_6\}\)
-
(f) wszystkie możliwe zbiory pięcio-elementowe
-
-
- \(\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5\}\), \(\{\omega_1, \omega_2, \omega_3, \omega_4, \omega_6\}\),
-
-
-
- \(....................................................\)
-
-
-
- \(\{\omega_2, \omega_3, \omega_4, \omega_5, \omega_6\}\)
-
(g) tylko jeden zbiór sześcio-elementowy
-
-
- \(\{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\)
-
czyli zbiór zdarzeń elementarnych \(\Omega\)
Zbiór \(\mathcal F= \mathcal F_1\) zawiera \(2^6=64\) elementy. Jest to maksymalna liczba możliwych podzbiorów zbioru składającego się z 6 elementów. Jest to dobrze znany wynik. W ogolności dla zbioru \(\Omega\) składajacego się z \(N\) elementów, rodzina \(\mathcal F\) liczy \(2^N\) elementów. Liczba podzbiorów k-elementowych w zbiore N-elementowym to liczba kombinacji
\(N \choose k\). Stąd mamy
\({6 \choose 0} =1\) zbiorów jzero-elementowych,
\({6 \choose 1} =6\) zbiorów jedno-elementowych,
\({6 \choose 2} =15\) zbiorów dwuelementowych,
\({6 \choose 3} =20\) zbiorów trzy-elementowych,
\({6 \choose 4} =15\) zbiorów cztero-elementowych,
\({6 \choose 5} =6\) zbiorów pięci-elementowych,
\({6 \choose 6} =1\) zbiorów sześcio-elementowych.
Suma tych liczb wynosi 64. Wynik ten można otrzymac z wyrażenia dla dwumianu Newtona
\((a+b)^N = \sum_{k=0}^N {N\choose k} a^k b^{N-k}\)
Przyjmując w tym wzorze a=b=1 otrzymamy
\(2^N = \sum_{k=0}^N {N\choose k}\)
Ten przykład jest interesujacy jeszcze z jednego powodu. Pokazuje on, że w zależności od tego, jakie pytania stawiamy, rodzina \(\mathcal F\) może być inaczej skonstruowana. Łatwo sprawdzić, że podzbiory
\(\emptyset\), \(\Omega\;\), \(\{\omega_1, \omega_3, \omega_5\}\;\), \(\{\omega_2, \omega_4, \omega_6\}\;\)
także spełniają własności \(\sigma\)-algebry. Więc jest to też możliwy zbiór \(\mathcal F= \mathcal F_2\).
Mamy obecnie dwie \(\sigma\)-algebry, oznaczone przez \(\mathcal F_1\) oraz \(\mathcal F_2\). Pierwsza \(\sigma\)-algebra zawiera 64 podzbiory, druga- tylko 4. Pamiętajmy, że elementy \(\sigma\)-algebry nazywają się zdarzeniami. Cóż to jest za zdarzenie
\(A_1= \{\omega_5, \omega_6\}\)
Jest to zdarzenie, polegające na tym, że przy jednokrotnym rzucie kostką wypadnie albo 5 albo 6.
Zdarzenie
\(A_2=\{\omega_1, \omega_3, \omega_5\}\)
oznacza, że wypadnie nieparzysta liczba oczek.
Zdarzenie
\(A_0=\emptyset \)
nazywa sie zdarzeniem niemożliwym.
Zdarzenie
\(A=\Omega= \{\omega_1,\omega_2,\omega_3, \omega_4, \omega_5, \omega_6\}\)
polega na tym, że przy jednokrotnym rzucie kostką wypadnie jedno z sześciu oczek. To jest pewne. Dlatego nazywa się ono zdarzeniem pewnym. Jest oczywiste, że gdy w jednokrotnym rzucie otrzymamy np. \(\omega 3\) czyli trójkę, to nie otrzymamy jedynki, czy piątki. To oznacza, że
\[i\ne j \implies \omega_i\cap \omega_j = \emptyset\]
Zdarzenia takie nazywamy zdarzeniami wzajemnie wykluczającymi się. W ogólności, jeżeli zachodzi relacja
\[i\ne j \implies A_i\cap A_j = \emptyset\]
to takie zdarzenia \(\{A_i\}\) nazywamy zdarzeniami wzajemnie wykluczającymi się.
Zauważmy, że rodzina podzbiorów \(\mathcal F_2\) jest znacznie uboższa niż rodzina \(\mathcal F_1\). Wybierając rodzinę podzbiorów \(\mathcal F_2\), pytamy tylko o parzystą lub nieparzystą liczbę oczek. Możemy konstruować jeszcze inne rodziny \(\mathcal F\).
Z powyższych przykładów wynika, że jeżeli przestrzeń zdarzeń elementranych składa się z n-elementów, to rodzina \(\mathcal F\) może składać się ze wszystkich podzbiorów zbioru \(\Omega\). A liczba wszystkich możliwych podzbiorów zbioru n-elementowego wynosi \(2^n\). Jest to maksymalna \(\sigma\)-algebra.
3. Jeżeli przestrzeń zdarzeń elementrnych jest zbiorem liczb rzeczywistych, tzn. \(\Omega = R\) lub dowolym jego podzbiorem, to \(\sigma\)-algebra generowana jest przez wszystkie zbiory otwarte \((a, b)\), gdzie \(a\) i \(b\) są dowolnymi liczbami rzeczywistymi. Tak \(\sigma\)-algebra składa się ze zbiorów otwartych \((a, b)\), zbiorów domknietych \([a, b]\), zbiorów półotwartych \([a, b)\) lub \((a, b]\), półprostych \((a, \infty)\), \((-\infty, b)\), \([a, \infty)\), \((-\infty, b]\), dowolnych przeliczalnych sum i iloczynów. Rodzina ta zawiera także różnice zbiorów i punkty. Wszystkie powyższe podzbiory tworzą najważniejszą \(\sigma\)-algebrę i nazywamy ją \(\sigma\)-algebrą zbiorów Borela.
\(P\): miara probabilistyczna
Ostatni element trójki \((\Omega, \mathcal F, P)\), tzn. P jest funkcją i nazywa się miarą probabilistyczną lub po prostu prawdopodobieństwem. Argumentem tej funkcji są zdarzenia \(A\in \mathcal F\). Funkcja \(P\) musi spełniać określone warunki. Można je sformułować następująco:
Niech \({\mathcal F}\) będzie \(\sigma\)-algebrą podzbiorów zbioru \(\Omega\) oraz niech \(P:{\mathcal F}\longrightarrow {\mathbb R^+}\) będzie funkcją o następujących własnościach:
- \(P(A) \ge 0 \) dla dowolnego zdarzenia \(A \in {\mathcal F}\)
- \( P(\Omega) < \infty \)
- \(P\) jest σ-addytywna (lub inaczej mówiąc przeliczalnie addytywna), tzn.
- \(P\left(\bigcup_{n = 0}^{\infty}~A_n\right) = \sum_{n = 0}^{\infty}~P(A_n)\) dla wszystkich parami rozłącznych zbiorów \(A_0,A_1,A_2,\ldots\in {\mathcal F}\).
Ponieważ elementy \(\sigma\)-algebry \(\mathcal F\) są zdarzeniami, to kazdemu zdarzeniu \(A \in \mathcal F\) przyporządkowujemy nieujemną liczbę \(P(A)\). To liczba ma interpretację prawdopodobieństwa zajścia zdarzenia \(A\). Z własności 2, że \(P(\Omega)\) jest liczbą skończoną i z przyczyn historycznych oraz tradycji zakładamy, że \(P(\Omega)=1\). Inaczej mówiąc, zawsze możemy unormować miarę probabilistyczną do jedności. Przypomina to przyjęcie określonych jednostek w fizyce. Np.masa jednego kilograma jest kwestią umowną. Unormowanie funkcji \(P\) do jedności oznacza, że
\[ 0 \le P(A)\le 1 \]
Addytywność oznacza, że
- \(P(A\cup B)=P(A)+ P(B)\) dla wszystkich wzajemnie wykluczających się zdarzeń \(A,B\in {\mathcal F}\), to znaczy takich, że ich część wspólna
(iloczyn) jest zbiorem pustym: \(A \cap B =\emptyset \).
WAŻNE RELACJE
\(P(A)\in[0,1]\), \(P(\emptyset) = 0\), \(P(\Omega) = 1\,\)
\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)
\(P(A')=1-P(A)\,\)
\(P(A \mid B) = \frac{P(A \cap B)}{P(B)}\,\)
Przykłady miar probabilistycznych
1. Przy jednokrotny rzucie idealną monetą prawdopodobieństwo otrzymania orła (reszki) wynosi \(1/2\), czyli
\(P(\omega_1)=P(\omega_2) = \frac{1}{2}\)
Można też założyć ogólniejszy przypadek gdy \(P(\omega_1) =p_1\) oraz \(P(\omega_2) = p_2\). Wówczas musi zachodzić równość \(p_1+p_2=1\).
2. Przy jednokrotny rzucie idealną kostką prawdopodobieństwo otrzymania np. 2 oczek wynosi \(1/6\), czyli
\(P(\omega_k) = \frac{1}{6} \) dla \( k=1, 2, 3, 4, 5, 6 \).
Można też założyć ogólniejszy przypadek gdy \(P(\omega_k) =p_k \in [0, 1]\). Wówczas musi zachodzić równość \(p_1+p_2+p_3+p_4+p_5+p_6=1\).
3. Niech przestrzeń zdarzeń elementarnych składa sie z nieskończonej ale przeliczalnej liczby elementów
\(\Omega=\{\omega_1, \omega_2, \omega_3, ...\}\)
Jeżeli \(P(\omega_k)=p_k \in [0, 1]\) oraz \(\sum_{k=1}^{\infty}p_k = 1\), to otrzymamy dobrze określone prawdopodobieństwa zajścia dowolnych zdarzeń w tej przestrzeni probabilistycznej.
4. Jeżeli przestrzenią zdarzeń elementarnych jest zbiór liczb rzeczywistych lub jego podzbiór, wówczas zdarzeniami są przedziały. Niech, niezależnie od interpretacji, zdarzeniem jest przedział \(A=(2, 8)\). Czy można określić prawdopodobieństwo zajścia zdarzenia \(A\), czyli ile wynosi
\(P(A=(2, 8))\)
Tak abstrakcyjnie sformułowane pytanie ma nieskończenie wiele możliwych realizacji. Podamy jedną z przykładowych odpowiedzi. Niech \(\Omega =R\). Niech \(f(x)\) będzie funkcja określoną na zbiorze \(\Omega\) o następujących własnościach
(i) \(f(x) \ge 0\) for all \(x\in \Omega \)
(ii) \(\int_{-\infty}^{\infty} f(x) dx =1\)
Wówczas
\(P(A=(2, 8)) = \int_{2}^{8} f(x) dx\)
Zamiast zbioru \(\Omega = R\), mozna rozważać półprostą lub odcinek. Wówczas we wzorze (ii) przedziałem całkowania jest półprosta lub odcinek.
Zmienna losowa
Przestrzeń probabilistyczna jest zbiorem, więc tak jak na każdym zbiorze tak i na przestrzeni probabilistycznej możemy definiować odwzorowania. Niech \(f\) będzie dowolną funkcją określoną na zbiorze \(X\) o wartościach w zbiorze \(Y\). Pamiętamy, że element zbioru \(X\) nazywany jest argumentem funkcji (zmienną niezależną), natomiast zbiór \(Y\) jest zbiorem wartości funkcji. Zmienna losowa jest też funkcją, tyle że na przestrzeni probabilistycznej. Tutaj odpowiednikiem zbioru \(X\) jest zbiór zdarzeń elementarnych \(\Omega\), a zmienną niezależną jest zdarzenie elementarne \(\omega\). Jednak nie wszystkie funkcje na zbiorze \(\Omega\) nazywają się zmiennymi losowymi. Problem jest nieco podobny do tego, że nie wszystkie funkcje są funkcjami ciągłymi. Z "praktyki" studenci wiedzą, że funkcje ciągłe są "przyjemniejsze" (na przykład granica lewostronna jest równa granicy prawostronnej i jest to liczba skończona). Analogiem funkcji ciągłych są zmienne losowe.
Precyzyjna definicja matematyczna jest następujaca:
Niech \((\Omega, F, P)\) będzie przestrzenia probabilistyczną oraz \((X, {\mathcal B})\) -- przestrzenią fazową, tzn. zbiorem \(X\) wraz z \(\sigma\)-algebrą \({\mathcal B}\) zbioru \(X\). Zwykle \(X=R\) jest zbiorem liczb rzeczywistych, a \(\sigma\)-algebrą \({\mathcal B}\) są zbiory Borela.
Zmienną losową (rzeczywistą) na przestrzeni probabilistycznej \((\Omega, \mathcal F, P)\) nazywamy dowolną rzeczywistą funkcję mierzalną \(\xi \colon \Omega \to R\), tzn. funkcję \(\xi \) spełniającą warunek
- \(\xi^{-1}(B)\in \mathcal{F}\) dla każdego zbioru borelowskiego \(B\subset {\mathcal B}\).
Innymi słowy, przeciwobraz zbioru Borela jest zdarzeniem w przestrzeni probabilistycznej \(\Omega\). Definicja ta przypomina topologiczna definicję odwzorowania ciągłego: mówiąc w wielkim skrócie, odwzorowanie \(G\) nazywa się ciągłym gdy przeciwobraz każdego zbioru otwartego jest zbiorem otwartym. Jest to mniej znana definicja odwzorowania ciągłego, ale jest ona równoważna tradycyjnej definicji ciągowej.
Zwykle zmienne losowe zapisuje się za pomocą liter greckich \(\xi, \eta, \), odmiennie niż zapisuje się funkcje. Oznaczenie \(\xi(\omega)\) odpowiada tradycyjnemu zapisowi dla funkcji \(f(x)\).
Dodatkowo narzucamy warunek
\(P(\{\omega: \xi(\omega)=\pm \infty\})=0\)
Innymi słowy, zbiór wszystkich zdarzeń elementarnych, dla których zmienna losowa przyjmuje nieskończone wartosci, jest miary zero. Np. gdy analzujemy ruch cząstki Browna, prawdopodobieństwo tego, że czastka ta jest w nieskończoosci wynosi zero. Jest to naturalne założenie dla wszystkich realnych zjawisk. Jeżeli jako zbiór Borela w przestrzeni fazowej \(X\) przyjmiemy \(B=(-\infty, x]\), gdzie \(x\) jest dowolna liczbą rzeczywistą, to warunek mierzalności można napisać w bardziej przejrzystej formie:
\(\{\omega: \xi(\omega) \le x\} \in\mathcal F \;\)
czyli zbiór takich \(\omega \; \) jest elementem \(\sigma\)-algebry \(\mathcal F\), to znaczy jest zdarzeniem w wyjściowej przestrzeni \(\Omega\). Oczywiście zbiór
\(\{\omega: \xi(\omega) > x\} \in \mathcal F \;\)
też jest zdarzeniem dla dowolnych wartości \(x\).
Rozważa się również zmienne losowe o wartościach w abstrakcyjnych przestrzeniach topologicznych (żeby analogicznie mówić o przeciwobrazach zbiorów borelowskich danej przestrzeni topologicznej) - i tak, na przykład: zmienne losowe o wartościach zespolonych nazywa się zmiennymi losowymi zespolonymi. Odwzorowanie mierzalne określone na przestrzeni \(\Omega\) o wartościach w przestrzeni \(R^n\) nazywa się wektorem losowym. Wektor losowy ma postać \( \xi(\omega) = \left(\xi_1(\omega), \xi_2(\omega), \dots, \xi_n(\omega)\right)\), gdzie \(\xi_i(\omega)\;\) dla \(i = 1, \dots, n\) są zmiennymi losowymi rzeczywistymi.
Rozkłady prawdopodobieństwa zmiennej losowej
Jeżeli badamy zjawiska losowe, to zwykle przypisujemy im jakieś wektory zmiennych losowych. Te zmienne losowe przyjmują wartości z pewnych zbiorów. Tymi zbiorami są często zbiory Borela. W teorii probabilistycznej pytamy, jakie jest prawdopodobieństwo tego, że zmienna losowa przyjmuje wartości należące np. do przedziału \((2, 8)\;\), a ten przedział jest zbiorem Borela. Analizując ruch cząstki Browna, możemy zapytać, jakie jest prawdopodoieństwo tego, że chwili czasu \(t=7 \;\) cząstka znajduje się w przedziale położeń \((2, 8)\). Jeżeli jesteśmy w stanie odpowiadac na tego typu pytania, to znaczy że znamy rozkłady prawdopodobieństa zmiennych losowych.
Formalna definicja brzmi:
Funkcją rozkładu (lub równoważnie rozkładem prawdopodobieństwa) \(\mathcal P_{\xi}(B) \;\) zmiennej losowej \(\xi\) nazywamy funkcję na przestrzeni fazowej zdefiniowanej w następujący sposób:
\(\mathcal P_{\xi}(B) = P(\{\omega: \xi(\omega) \in B\})\)
Funkcja \(\mathcal P \;\) ma wszystkie własności miary probabilistycznej: jest nieujemna, przeliczalnie addytywna i unormowana do jedności. To oznacza, że ma interpretację prawdopodobieństwa. Innymi slowy, \(\mathcal P_{\xi}(B) \;\) jest prawdopodobieństwem tego, że zmienna losowa przyjmuje wartości należące do zbioru Borela \(B\). Czasami stosuje się zapis
\(\mathcal P_{\xi}(B) = Pr(\xi \in B) \) prawdopodobieństwo tego, że zmienna losowa \(\xi\) przyjmuje wartości należące do zbioru Borela \(B\)
Ponieważ narzucamy dodatkowy, ale naturalny warunek
\( P(\{\omega: \xi(\omega) = \pm \infty\}) = 0\)
to wynika stąd że
\(Pr (\xi = \pm \infty) = 0\)
Zwróćmy uwagę na różne oznaczenia prawdopodobieństw \(P\) i \(\mathcal P\). Zapis \(P(A)\) oznacza prawdopodobieństwo zdarzenia \(A\) w przestrzeni probabilistycznej \(\Omega\), natomiast zapis \(\mathcal P_{\xi}(B)\) oznacza prawdopodobieństwo zdarzenia w przestrzeni fazowej \(X\). Powyższą równość definiującą prawdopodobieństwa w przestrzeni fazowej \(X\) matematycy określają jako transport miary z jednej przestrzeni (tutaj \(\Omega\)) w inną przestrzeń (tutaj \(X\)). Jest to równość, której różne wersje są bardzo często wykorzystywane. Studenci powinni zrozumieć jej istotę. Zauważmy, że znając \(\mathcal P_{\xi}\), przestrzeń fazowa \(X\) staje się nowa przestrzenia probabilistyczną:
\((X, \mathcal B, \mathcal P_{\xi})\)
Na tej przestrzeni probabilistycznej można zdefiniować nową zmienną losową jako odwzorowanie zbioru \(X\) w zbiór \(Y\) będący nową przestrzenią fazową. Oczywiście w zbiorze \(Y\) należy zdefiniować \(\sigma\)-algebrę, np. zbiorów Borela. Konstrukcję taką możemy powtarzać wielokrotnie, otrzymując nowe zmienne losowe. Można zauważyć, że gdy mamy określone wszystkie trzy elementy w trójce \((X, \mathcal B, \mathcal P_{\xi})\), to wcale nie potrzebna nam jest wyjściowa przestrzeń probabilistyczna \((\Omega, \mathcal F, P)\). Możemy o niej zapomnieć, ponieważ znajomość funkcji rozkładu \(\mathcal P_{\xi} \) zmiennej losowej \(\xi\) jest wystarczająca do zbadania wszystkich probabilistycznych własności samej zmiennej losowej \(\xi\).
Niektóre zbiory Borela są bardziej "uprzywilejowane" od innych (jak to zwykle bywa na tym świecie). Przykładem wyjątkowo "uprzywilejowanego" zbioru Borela jest półprosta ( raczej rodzina półprostych)
\(B=(-\infty, x]\)
gdzie \(x\in R\) jest dowolna liczbą rzeczywistą.
Wówczas stosujemy specjalne oznaczenie dla rozkładu prowadopodobieństwa, a mianowicie
\(F_{\xi}(x) = \mathcal P_{\xi}(B) = \mathcal P_{\xi}( (-\infty, x]) = Pr(\xi \in (-\infty, x]) = Pr(\xi \le x) = P(\{\omega: \xi(\omega) \in (-\infty, x]\}) = P(\{\omega: \xi(\omega) \le x\})\)
Użyliśmy tu wszystkich możliwych form na zapis tej samej wielkości. Ponieważ wielkość ta zależy od wartości \(x\), to oznacza po prostu że jest to funkcja zależna od \(x\). Tak więc \(x\) traktujemy jako zmienną niezależną w funkcji \(F_{\xi}(x)\).
Rozkład powyższy nazywamy dystrybuantą zmiennej losowej \(\xi\). Dystrybuanta \(F_{\xi}(x)\) jest funkcją parametru \(x\), który wyznacza prawy koniec przedziału \((-\infty, x]\). Jeżeli wiemy o jaką zmienną losową chodzi (aby nie prowadziło to do niejednoznaczności) to stosujemy skrócony zapis
\(F(x) = F_{\xi}(x)\)
Przykłady zmiennej losowej i jej rozkłady prawdopodobieństwa
Podamy przykładY zmiennej losowej i wyliczymy jej różne rozkłady prawdopodobieństwa. PrzykładY te pozwolĄ studentowi wyrobić intuicję o własnościach dystrybuanty. Wprowadzimy też specjalny zapis dystrubuanty tej zmiennej losowej za pomocą funkcji schodkowej Heaviside'a, użyteczny pod wieloma względami, np. ułatwiający zapis różnych procesów stochastycznych i pozwalający na ich łatwe uogólnienia.
1. Doświadczenie polega na jednokrotnym rzucie kostką do gry. Wiec przestrzenią zdarzeń elementarnych jest zbiór
\(\Omega = \{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5, \omega_6 \}\)
Niech zmienna losowa \(\xi\) błędzie zdefiniowana przez relację
\(\xi(\omega_k) = 2k+3\)
Przestrzeń fazowa składa się z wartości tej funkcji, a mianowicie
\(X=\{\xi(\omega_k)\} = \{5, 7, 9, 11, 13, 15 \}\)
Zdarzenie
\(\{\xi(\omega) \le 9\} = \{\omega: \xi(\omega) \le 9 \} = \{\omega_1, \omega_2, \omega_3\} = \omega_1 \cup \omega_2 \cup \omega_3= A \).
Więc
\(F(9) = F_{\xi}(9) = P(A) = P(\{\omega_1, \omega_2, \omega_3\}) = P(\omega_1) + P(\omega_2) + P(\omega_3) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{1}{2} \)
Wykorzystaliśmy tu własność addytywności prawdopodobieństwa dla zdarzeń wzajemnie wykluczających się, \(\omega_i \cap \omega_j = \empty\) dla \(i \ne j\).
Zdarzenie
\(\{\xi(\omega) \le 0\} \)
jest zdarzeniem niemożliwym, to znaczy nie ma takich zdarzeń elementarnych \(\omega_k\), aby \(\xi(\omega_k) \le 0 \). Najmniejszą wartością zmiennej losowej jest liczba \(\xi(\omega_1) = 5\). Dlatego też
\(F(0) = Pr(\xi \le 0) =0\)
Natomiast zawsze na przykład \(\xi(\omega_k) \le 20 \). To jest pewne. Dlatego też
\(F(20) = Pr(\xi \le 20) =1\)
TU TRZEBA DOKONCZYC I DODAC RYSUNEK, DYSTRYBUANTE WYRAZIC ZA POMOCA TETA HEAVISIDE'A.
2. Oto przykład dziwnej zmiennej losowej. Definiujemy ją przez relację
\(\xi(\omega) = 3\)
Może ona być zdefiniowana dla dowolnej przestrzeni probabilistycznej. Jak ja interpretować? Niezależnie od wyniku \(\omega \) dowolnego doświadczenia przypisujemy jej wartość \(3\). Jest to analog funkcji stałej \(f(x)=3\): niezależnie od wartości zmiennej niezależnej \(x\), wartość funkcji zawsze wynosi \(3\). Użyliśmy określenia "dziwna zmienna losowa" ponieważ ta zmienna losowa tak naprawdę nie jest losowa: zawsze wynosi 3. Porównajcie ją z poprzednim przykładem: dla różnych \(\omega\) otrzymywaliśmy różne wartości \(\xi\). Tym razem, obojętnie jaka liczba oczek wypadnie, zawsze temu przypisujemy liczbę \(3\). Oczywiście zamiast liczby 3, może być wybrana każda inna liczba rzeczywista, np. \(\xi =c , \; c\in R\). Jej dystrybuanta może być wyznaczona podobnie jak w poprzednim przykładzie. W wyniku otrzymamy
\(F_{\xi}(x) = \theta(x-3)\)
Graficznie, jest to funkcja schodkowa o jednym schodku, patrz rysunek.
Jeżeli \(\xi(\omega) = c\) to \(F_{\xi}(x) = \theta(x-c)\). Zapamiętajcie ten przykład, ponieważ będzie on wielokrotnie wykorzystywany w różnym kontekście: Jeżeli zmienna losowa nie jest "losowa", to znaczy jest "deterministyczna", wówczas jej dystrybuanta jest funkcją teta Heaviside'a. Dla przykładu, jeżeli znamy dokładnie położenie cząstki Browna w chwili czasu \(t=0\) i wynosi \(\xi = 5\), to wówczas odpowiadająca temu dystrybuanta ma postać
\(F_{\xi}(x) = \theta(x-5)\)
3. Bardzo ważny przykład. Rozważmy dowolą przestrzen probabilistyczną \(\Omega\). Rozbijmy ją na dwa podzbiory \(A\) i jego dopełnienie \(A'\), to znaczy
\(\Omega = A \cup A'\), \( A \cap A' = \empty\)
Mamy dwa zdarzenia: zdarzenie \(A\) które nazwiemy umownie sukcesem i zdarzenie \(A'\) które nazwiemy umownie porażką. Mamy pojedyńcze doświadczenie E i w wyniku tego doświadczenie możemy otrzymać sukces \(A\) lub porażkę \(A'\). Niech prawdopodobieństwo sukcesu wynosi \(p=p_1\) i porażki \(q=p_2\), czyli
\(P(A) = p=p_1, \; P(A') = q=p_2, \; p+q=1\)
Zdefiniujmy zmienną losową \(\xi\) w następujący sposób:
\(\xi(A) = 1\)
\(\xi(A') = 0\)
Zauważmy, że prawdopodobieństwo tego że \(\xi=1\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A\), czyli
\(Pr (\xi = 1) = P(A) = p_1 \)
Podobnie, prawdopodobieństwo tego że \(\xi=0\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A'\), czyli
\(Pr (\xi = 0) = P(A') = p_2, \)
Ponieważ zmienna losowa przyjmuje dwie wartości, więc jej dystrybuanta składa się z dwóch schodków:
\(F_{\xi}(x) = p \theta(x-1) + q\theta (x-0) = p_1 \theta(x-1) + p_2 \theta (x-0) \)
4. Przykład podsumowujący. Niech przestrzeń probabilistyczna będzie sumą wzajemnie rozłącznych podzbiorów (zdarzeń wzajemnie wykluczających się) \(A_k \; (k=1, 2, 3, ..., n)\), to znaczy
\(\Omega = A_1 \cup A_2 \cup A_3 \cup ... \cup A_n\)
\(A_i \cap A_j = \empty\) dla \(i \ne j\)
i niech
\(P(A_k) = p_k, \; k=1, 2, 3, ... n\)
przy czym suma wszystkich prawdopodobieństw wynosi 1 (warunek unormowania),
\(\sum_{k=1}^{n} p_k = 1\)
Zdefiniujmy zmienną losową przez relację
\(\xi(A_k) = x_k, \; \; k=1, 2, 3, ... n\)
Zauważmy, że prawdopodobieństwo tego że \(\xi=x_k\) wynosi tyle samo co prawdopodobieństwo tego że otrzymamy \(A_k\), czyli
\(Pr (\xi = x_k) = P(A_k) = p_k\)
Mając praktykę nabytą przy analizie poprzednich trzech przykładów możemy napisać wyrażenie na dystrybuantę tej zmiennej losowej:
\(F_{\xi} (x) = \sum_{k=1}^{n} p_k \theta(x-x_k)\)
W wyrażeniu tym \(x_k\) - to są możliwe wartości zmiennej losowej \(\xi\), natomiast \(p_k =Pr(\xi = x_k)\) jest prawdopodobieństwem tego, że zmienna losowa \(\xi\) przyjmuje wartość \(x_k\).
Własności dystrybuanty
Wprost z definicji wnioskujemy o 2 własnościach:
(1) \(F_{\xi}(\infty) = Pr(\xi \le \infty) =1\)
(2) \(F_{\xi}(-\infty) = Pr(\xi \le -\infty) = 0\)
Pozostałe 3 własności to:
(3) \(F_{\xi}(x)\) jest funkcją niemalejącą, to znaczy
jeżeli \(x_1 < x_2 \) to \(F_{\xi}(x_1) \le F_{\xi}(x_2)\)
(4) \(F_{\xi}(x)\) jest funkcją prawostronnie ciągłą, to znaczy
\(\lim_{\epsilon \to 0^+} F_{\xi}(x+\epsilon) = F_{\xi}(x) \)
Zapisujemy to w skróconej postaci jako
\(F_{\xi}(x^+) = F_{\xi}(x) \)
(5) \(Pr(\xi = x) = \lim_{\epsilon \to 0^+}[F_{\xi}(x) - F_{\xi}(x-\epsilon)] = F_{\xi}(x) - F_{\xi}(x^-) \)
Wynika stąd, że jeżeli dystrybuanta jest funkcją ciągłą (prawostronnie i lewostronnie ciągłą) to
\(Pr(\xi = x) = 0 \)
Dystrybuanta, jak inne funkcje, niekoniecznie musi być różniczkowalna we wszystkich punktach (dla wszystkich wartości \(x\)). W zależności od własności funkcji \(F_{\xi}(x)\), możemy dokonać klasyfikacji zmiennych losowych. I tak jeżeli \(F_{\xi}(x)\) jest funkcją ciągłą i różniczkowalną, z wyjątkiem co najwyżej przeliczalnej liczby punktów (to znaczy nie jest różniczkowalna w co najwyżej przeliczalnej liczbie punktów), wówczas \(\xi \) nazywamy zmienną losową ciągłą. Jeżeli dystrybuanta jest funkcją schodkową, to \(\xi\) nazywa się zmienną losową dyskretną. Pozostałe zmienne losowe będziemy nazywać mieszanymi.
Z własności (5) wynika, że dla zmiennych losowych ciągłych \(Pr(\xi = x) = 0 \). To jest bardzo ważną własność. Jeżeli rozpatrujemy losowy ruch cząstki Browna, to prawdopodobieństwo tego, że w pewnej chwili czasu jest ona w położeniu x wynosi zero! Podobnie jest dla losowych procesów urodzin: prawdopodobieństwo tego, że dziecko urodzi się w chwili dajmy na to \(t=5\) wynosi zero. Dla zmiennych losowych ciągłych pytania innego typu mają nietrywialną odpowiedź. Tym pytaniem jest na przykład: jakie jest prawdopodobieństwo tego, że w pewnej chwili czasu cząstka znajduje się w przedziale położeń \((x_1, x_2)\) lub: jakie jest prawdopodobieństwo tego, że dziecko urodzi się w przedziale czasowym \((t_1, t_2)\). Odpowiedź na tego typu pytania daje znajomość dystrybuanty. Pokażemy obecnie, że dla \(x_2 > x_1\) zachodzi relacja
\(Pr(\xi \in (x_1, x_2]) = F_{\xi}(x_2) - F_{\xi}(x_1)\)
Zauważmy, że zbiór
\(\{\xi \le x_2\} = \{\xi \le x_1 \} \cup \{x_1 < \xi \le x_2\} \)
oraz dwa ostatnie zbiory są rozłączne, to znaczy
\( \{\xi \le x_1 \} \cap \{x_1 < \xi \le x_2\} = \empty\)
Odpowiadające im zdarzenia wzajemnie wykluczają się, więc korzystając z \(\sigma\)-addytywności prawdopodobieństwa otrzymamy
\(Pr(\xi \le x_2) = Pr( \{\xi \le x_1 \} \cup \{x_1 < \xi \le x_2\}) = Pr(\xi \le x_1) + Pr(x_1 < \xi \le x_2) \)
Korzystając z kolei z definicji dystrybuanty, wyrażenie to można przepisać w postaci
\( F_{\xi}(x_2) = F_{\xi}(x_1) + Pr(\xi \in (x_1, x_2]) \)
Stąd otrzymujemy powyższą relację.
Gęstość rozkładu prawdopodobieństwa zmiennej losowej
Dystrybuanta \(F_{\xi}(x)\) zmiennej losowej \(\xi\) jest funkcją \(x\), to znaczy prawego końca przedziału \(A=(-\infty, x]\) będącego zdarzeniem. Zdarzenie to ma taką oto interpretację: zmienna losowa \(\xi\in (-\infty, x]\). Pochodna
\(p_{\xi}(x) = \frac{dF_{\xi}(x)}{dx}\)
nazywa się gęstością rozkładu prawdopodobieństwa zmiennej losowej \(\xi\). Można też spotkać takie nazwy jak: funkcja gęstości, gęstość prawdopodobieństwa lub funkcja gęstości prawdopodobieństwa. Powyższe wyrażenie scałkujemy obustronnie w odpowiednich granicach:
\(\int_{-\infty}^x \frac{dF_{\xi}(y)}{dy} dy = F_{\xi}(x) - F_{\xi} =(-\infty) = F_{\xi}(x) = \int_{-\infty}^x p_{\xi}(y)dy \)
Związek ten pozwala wyrazić dystrybuantę przez gęstość prawdopodobieństwa. Rozpatrzmy teraz wzór (****) na prawdopodobieństwo tego, że zmienna losowa przyjmuje wartości z pewnego przedziału oraz skorzystajmy z powyższego wzoru. Otrzymamy wówczas:
\(Pr(\xi \in (x_1, x_2]) = F_{\xi}(x_2) - F_{\xi}(x_1) = \int_{-\infty}^{x_2} p_{\xi}(y)dy -\int_{-\infty}^{x_1} p_{\xi}(y)dy = \int_{-\infty}^{x_2} p_{\xi}(y)dy +\int_{x_1}^{-\infty} p_{\xi}(y)dy\)
Korzystając z własności całek oznaczonych możemy przepisać ten wzór w postaci
\( Pr \{ \xi \in (x_1, x_2])\} = \int_{x_1}^{x_2} p_{\xi}(y)dy \)
Jest to jedna z najważniejszych relację, która wiąże gęstość prawdopodobieństwa z prawdopodobieństwem.
Można również podać ogólniejszy wzór dla prawdopodobieństwa rozkładu, a mianowicie prawdopodobieństwo tego, że zmienna losowa \(\xi\) przyjmuje wartości z pewnego zbioru \(B\) wynosi
\( Pr \{ \xi \in B)\} = \int_{B} p_{\xi}(y)dy \)
Innymi słowy, należy gęstość rozkładu prawdopodobieństwa scałować po obszarze \(B\).
Własności gęstość rozkładu prawdopodobieństwa:
1. Ponieważ dystrybuanta jest funkcją niemalejącą to jej pochodna (czyli gęstość) jest funkcją nieujemną. Stąd
\(p_{\xi}(x) \ge 0\)
2. Ponieważ \(F_{\xi}(\infty) = Pr(\xi \le \infty) =1\) stąd
\(\int_{-\infty}^{\infty} p_{\xi}(y)dy =1\)
Relację tę nazywa się warunkiem unormowania.
Można postawić sobie pytanie odwrotne, czy każdej funkcji \(p(x)\) o podanych powyżej dwóch własnościach odpowiada jakaś zmienna losowa? Odpowiedź jest pozytywna i matematycy formułują ją w postaci twierdzenia: tak, istnieje taka zmienna losowa dla której gęstość rozkładu prawdopodobieństwa ma postać \(p(x)\). Ponieważ istnieje nieskończenie wiele funkcji nieujemnych i normowalnych w różnych przestrzeniach fazowych, wiec istnieje także nieskończenie wiele zmiennych losowych.
Dla zmiennej losowej ciągłej, najczęściej przestrzenią fazową jest prosta (cała oś liczbowa), półprosta lub odcinek. Wówczas warunek unormowania odnosi się do prostej, półprostej lub odcinka. W dwóch ostatnich przypadkach warunek unormowania ma na przykład postać:
\(\int_{0}^{\infty} p_{\xi}(y)dy =1 \)
gdy przestrzenią fazową jest zbiór \(X = [0, \infty)\) lub
\(\int_{0}^{1} p_{\xi}(y)dy =1\)
gdy przestrzenią fazową jest odcinek \(X = [0, 1] \).
Zapis dla przypadków tego typu zawsze mozna sprowadzić do jednolitego zapisu z przedziałem całkowania \(X = )-\infty, \infty)\) poprzez przedefiniowanie funkcji gęstości rozkładu prawdopodobieństwa, wykorzystując funkcję schodkową Heaviside'a \(\theta(x)\). I tak dla półprostej
\(p_{\xi}(x) -> {\tilde p}_{\xi}(x) = \theta(x) p_{\xi}(x)\)
Wówczas warunek unormowania można zapisać w postaci
\(\int_{-\infty}^{\infty} {\tilde p}_{\xi}(y)dy =1 \)
Podobnie, gdy \(X = [0, 1]\), przedefiniowana gęstość ma postać
\(p_{\xi}(x) -> {\tilde p}_{\xi}(x) = \theta(x) \theta (1-x) p_{\xi}(x)\)
UWAGA: Niektórzy studenci (ci o słabszym opanowaniu wiadomości z teorii funkcji i teorii całki) mają kłopoty ze zrozumieniem zapisu różnych wyrażeń matematycznych. Przykładem takim są równoważne wyrażenia
\(\int_{-\infty}^{\infty} p_{\xi}(y)dy = \int_{-\infty}^{\infty} p_{\xi}(x)dx = \int_{-\infty}^{\infty} p_{\xi}(u)du = \int_{-\infty}^{\infty} p_{\xi}(s)ds =1\)
Należy pamiętać, że zmienna całkowania jest "niemą" zmienną i można ją oznaczać dowolnymi literami, a nie tylko literą "x" czy "y".
Przykłady gęstości prawdopodobieństwa dla zmiennych losowych ciągłych
Każdy z czytelników może wymyślać swoje własne zmienne losowe wybierając jakieś nieujemne i normowalne funkcje. Ale taka zabawa nie byłaby zbytnio konstruktywna ponieważ trudno byłoby taką metodą podać realne zjawiska które mają takie rozkłady. My podamy 3 możliwe funkcji abstrahując na razie od analizy samych zmiennych losowych i żródła ich występowania. Zwróćmy uwagę na różne przestrzenie fazowe dla poszczególnych zmiennych losowych, to znaczy dopuszczalne wartości zmiennej \(x\).
1. Zmienna losowa normalna (gaussowska, o rozkładzie Gaussa) opisywana jest gęstością prawdopodobieństwa w postaci
\(p(x) = N \exp(-ax^2)\), \(x\in (-\infty, \infty)\),
parametr \(a>0\), stałą \(N\) wyznacza się z warunku unormowania
2. Zmienna losowa o rozkładzie gamma
\(p(x) = N x^b \exp(-ax)\), \(x\in [0, \infty)\), \(b > -1\)
\(a\) i \(N\) - podobnie jak w przykładzie 1.
3. Zmienna losowa o rozkładzie beta
\(p(x) = N x^b (1-x)^c \), \(x\in [0, 1]\), \(b, c > -1\)
\(N\) - podobnie jak w przykładzie 1.
Wszystkie trzy przykłady opisują zmienne losowe ciągłe odpowiednio na przestrzeniach fazowych: \((-\infty, \infty)\), \([0, \infty)\) oraz \([0, 1]\).
Gęstość prawdopodobieństwa dla zmiennych losowych dyskretnych
Możemy rozpatrzeć przykład 4 zmiennej losowej, ponieważ zawiera on pozostałe 3 przykłady jako przypadki szczególne. Poniweaż znamy dystrybuantę dla tej zmiennej losowej, to wyznaczenie gęstości prawdopodobieństwa polega na zróżniczkowaniu tej funkcji. Jedynym problemem jest obliczenie pochodnej funkcji tetea Heaviside'a. Ponieważ funkcja ta jest funkcją nieciągłą, wieć z pewnością standardowa pochodna nie istnieje w każdym punkcie. Natomiast z pewnością istnieje pochodna uogólniona, czyli innymi słowy pochodna w sensie teorii dystrybucji lub krócej: pochodna dystrybucyjna. Z teorii dystrybucji wiemy, że
\(\frac{d\theta(x)}{dx} = \delta(x)\)
gdzie \(\delta(x)\) jest dystrybucją Diraca nazywaną potocznie deltą Diraca lub funkcją delta Diraca (chociaż nie jest to funkcja w potocznym czy standardowym sensie).
Korzystajac z powyższej formuły dla pochodnej funkcji schodkowej oraz ze wzoru na dystrybuantę zmiennej losowej losowej, możemy napisać wyrażenie na gęstość prawdopodobieństwa zmiennej losowej losowej dyskretnej w postaci:
\(p_{\xi} (x) = \sum_{k=1}^{n} p_k \delta(x-x_k)\)
W wyrażeniu tym \(x_k\) - to są możliwe wartości zmiennej losowej \(\xi\), natomiast \(p_k =Pr(\xi = x_k)\) jest prawdopodobieństwem tego, że zmienna losowa \(\xi\) przyjmuje wartość \(x_k\).
Momenty statystyczne zmiennej losowej
w praktycznych zastosowaniach,często interesują nas niektóre charakterystyki probabilistyczne zmiennej losowej. Typową taką wielkością jest wartość średnia zmiennej losowej. W literaturze istnieją też inne nazwy na wartość średnią: wartość oczekiwana, wartość przeciętna, nadzieja matematyczna, pierwszy moment statystyczny, moment statystyczny pierwszego rzędu. Pojęcie to jest uogólnieniem prostego pojęcia średniej z dwóch liczb: Jeżeli mamy dwie liczby, na przykład 2 oraz 6 to wartość średnia wynosi \((2+6)/2=4\). Ogólniej, dla dwóch liczb a oraz b, wartość średnia wynosi \((a+b)/2\). Dla zbioru liczb \((x_1, x_2, x_3, ..., x_n)\) wartość średnia wynosi
\(\frac{x_1+ x_2+ x_3+ ...+ x_n}{n}= \sum_{k=1}^{n} \frac{1}{n} x_k\).
Jeżeli mamy określoną zmienną losową dyskretną \(\xi=\{x_1, x_, x_3, ..., x_n\}\) przyjmującą wartości \(x_k\) z prawdopodobieństwem \(p_k\), to wartość średnia \( <\xi> \) zmiennej losowej \(\xi\) jest naturalnym uogólnieniem powyższego wzoru i ma postać
\(<\xi> = \sum_{k=1}^{n} p_k x_k\)
Niektórzy (zwłaszcza matematycy i kręgi zbliżone do nich) stosują inne oznaczenie na wartość średnią, a mianowicie
\(<\xi> = m_1 = E \xi = E ( \xi )= \mathbb E\xi \)
Litera E pochodzi od angielskiego słowa "Expectation" oznaczającego "oczekiwanie, nadzieja". Fizycy wolą stosować swoje oznaczenie \(<\xi>\).
Jeżeli zmienna losowa jest typu ciągłego o gęstości prawdopodobieństwa \(p_{\xi}(x)\) to jej wartość średnia wyraża się przez całkę
\(<\xi> = \int_{-\infty}^{\infty} x p_{\xi}(x) dx\)
gdzie obszarem całkowania jest przestrzeń fazowa \(X=(-\infty, \infty)\). W przypadku przestrzeni fazowych: \([0, \infty)\) oraz \([0, 1]\) wartość średnia ma odpowiednio postać
\(<\xi> = \int_{0}^{\infty} x p_{\xi}(x) dx\)
\(<\xi> = \int_{0}^{1} x p_{\xi}(x) dx\)
Oczywiscie granice całkowania można rozciągnąć do całej osi liczb rzeczywistych \((-\infty, \infty)\), ale należy pamiętać o przedefiniowaniu gęstości rozkładu z użyciem funkcji schodkowej Heaviside'a \(\theta(x)\), podobnie jak to podaliśmy w przykładach na temat unormowania funkcji rozkładu.