PIZL:Procesy Markowa

Z Skrypty dla studentów Ekonofizyki UPGOW

Kl.png
Ue.png




Spis treści

PROCESY MARKOWA

Andriej Markow (1856-1922) [1]

Do tej pory analizowaliśmy dwie klasy procesów stochastycznych: proces Poissona i proces Wienera. Otrzymaliśmy je jako graniczne procesy w schematach Bernoulliego. Mozna powiedzieć, że "wyprowadziliśmy" je z prób Bernoulliego. Teraz przedstawimy ogólniejszą klasę procesów stochastycznych, a mianowicie tak zwane procesy Markowa. Nim to zrobimy, przypomnimy kilka relacji dla rozkładów warunkowych: patrz podrozdział "Rozkłady warunkowe" w rozdziale "Elementy teorii prawdopodobieństwa". Tam podane sa formuły dla wektora zmiennych losowych. Tu zmodyfikujemy je i przedstawimy w języku procesu stochastycznego.

Niech \(\xi(t)\) będzie procesem stochastycznym. Jego n-wymiarową gęstość rozkładu prawdopodobieństwa oznaczymy następująco:


\[p(x_n, t_n; x_{n-1}, t_{n-1}; \dots ; x_1, t_1; x_0, t_0) \]


Przyjmujemy taką konwencję, że zawsze mamy hierarchię czasów

\[ t_n > t_{n-1} > \dots > t_1 > t_0 \]


Warunkowe gęstości rozkładu prawdopodobieństwa


                           \(p(x_1, t_1|x_0, t_0) =  \frac{p(x_1, t_1; x_0, t_0)}{p(x_0, t_0)} \)

ma następującą interpretację: jest to gęstość rozkładu prawdopodobieństwa procesy stochastycznego \(\xi(t)\) w chwili \(t_1\) pod warunkiem, że w chwili \(t_0\) proces stochastyczny \(\xi(t_0) \) miał wartość \(x_0\), czyli \(\xi(t_0)=x_0 \;\). Innymi słowy, analizujemy trajektorie procesu w chwili \(t_1\), ale tylko te, które w chwili \(t_0\) przechodzą przez punkt \(x_0\). W języku ruchu losowego cząstki, badamy położenie cząstki w chwili \(t_1\) pod warunkiem, że w chwili \(t_0\) cząstka była w położeniu \(x_0\).

Warunkowa gęstość rozkładu prawdopodobieństwa nazywa sie też funkcją prawdopodobieństwa przejścia. Na przykład \(p(x_1, t_1|x_0, t_0)\) jest funkcją prawdopodobieństwa przejścia układu ze stanu \(x_0\) w chwili \(t_0\) do stanu \(x_1\) w chwili \(t_1\).


Dowolny rozkład warunkowy jest określony przez równanie


\(p(x_n, t_n; \dots; x_{k+1}, t_{k+1}|x_{k}, t_k; \dots; x_0, t_0) = \frac{p(x_n, t_n; \dots; x_{k+1}, t_{k+1}; x_{k}, t_k; \dots; x_0, t_0) } {p(x_{k}, t_k; \dots; x_0, t_0)} \)


W szczególności zachodzi

(1)\(p(x_n, t_n|x_{n-1}, t_{n-1}; \dots; x_0, t_0) = \frac{p(x_n, t_n; x_{n-1}, t_{n-1}; \dots; x_0, t_0)}{p(x_{n-1}, t_{n-1}; \dots; x_0, t_0)} \)


Stosując tę samą argumentację jak dla wektora zmiennych losowych otrzymamy wzór

(2)\(p(x_n, t_n; \dots; x_0, t_0) = p(x_n, t_n| x_{n-1}, t_{n-1}; \dots; x_0, t_0)\,\)


\[ \times p(x_{n-1}, t_{n-1},|x_{n-2}, x_{n-2}; \dots; x_0, t_0)\, \dots p(x_2, t_2|x_1, t_1; x_0, t_0) \]


\[ \times \,p(x_1, t_1|x_0, t_0)\, p(x_0, t_0) \]


Innymi słowy, gęstość wielowymiarową dowolnego procesy stochastycznego można otrzymać z warunkowych gęstości jednowymiarowych \(p(x_i, t_i| x_{i-1}, t_{i-1}; \dots, x_0, t_0)\, \) oraz z jednowymiarowej gęstości \(p(x_0, t_0)\,\).


Z powyższych relacji oraz wzorów redukcyjnych dla gęstości wielowymiarowych wynika relacja

(3)\(p(x_2, t_2|x_0, t_0) = \int_{-\infty}^{\infty} p(x_2, t_2|x_1, t_1; x_0, t_0) p(x_1, t_1|x_0, t_0) dx_1 \)


Warunkowe wartości średnie procesu stochastycznego \(\xi(t)\)


A1. Jeżeli gęstość rozkładu prawdopodobieństwa procesu stochastycznego \(\xi(t)\) wynosi \(p(x, t)\) to jego wartość średnia dana jest wzorem

\[\langle \xi(t) \rangle = \int_{-\infty}^{\infty} x p(x, t) dx \]


A2. Jeżeli warunkowa gęstość rozkładu prawdopodobieństwa procesu stochastycznego \(\xi(t)\) wynosi \(p(x, t| M)\), gdzie \(M \) jest dowolnym zdarzeniem (warunkiem) to jego warunkowa wartość średnia dana jest wzorem

\[\langle \xi(t)|M \rangle = \int_{-\infty}^{\infty} x p(x, t|M) dx \]


A3. Jeżeli warunek \(M=\{\xi(t_0)=x_0\} \,\) to warunkowa gęstość rozkładu prawdopodobieństwa procesu stochastycznego \(\xi(t)\) wynosi \(p(x, t|x_0, t_0)\), oraz warunkowa wartość średnia dana jest wzorem

\[\langle \xi(t)|\xi(t_0) = x_0 \rangle = \int_{-\infty}^{\infty} x p(x, t|x_0, t_0) dx \]


A4. Niech \(\eta(t) = G(\xi(t))\) bedzie funkcją procesu stochastycznego \(\xi(t)\) oraz niech \(\xi(t_0)=x_0\). Wówczas warunkowa wartość średnia procesu \(\eta(t) = G(\xi(t))\) dana jest wzorem

\[\langle G(\xi(t))|\xi(t_0) = x_0 \rangle = \int_{-\infty}^{\infty} G(x) p(x, t|x_0, t_0) dx \]


A5. Niech \( G(\xi(t)) = [\xi(t)-\xi(t_0)]^k\) oraz niech \(\xi(t_0)=x_0\). Wówczas warunkowa wartość średnia procesu \( G(\xi(t))= [\xi(t)-\xi(t_0)]^k\) dana jest wzorem

\[\langle [\xi(t)-\xi(t_0)]^k|\xi(t_0) = x_0 \rangle = \int_{-\infty}^{\infty} (x-x_0)^k p(x, t|x_0, t_0) dx \]


A6. Niech w powyższym przypadku \( G(\xi(t+h)) = [\xi(t+h)-\xi(t)]^k\) oraz niech \(\xi(t)=x'\). Wówczas warunkowa wartość średnia procesu \( G(\xi(t+h))= [\xi(t+h)-\xi(t)]^k\) dana jest wzorem


(4)\(\langle [\xi(t+h)-\xi(t)]^k|\xi(t) = x' \rangle = \int_{-\infty}^{\infty} (x-x')^k p(x, t+h|x', t) dx \)

Wielkość ta jest warunkowym momentem statystycznym stopnia \(k\) przyrostu \(\xi(t+h)-\xi(t)\) procesu stochastycznego \(\xi(t)\). Ten przypadek jest szczególnie ważny. Zauważmy, że po lewej stronie pojawia się funkcja przyrostu procesu stochastycznego \(\xi(t+h)-\xi(t)\). Dla "zwykłych" funkcji, przyrost

\(f(t+h) -f(t) = \alpha h + \dots \).

Wielkość \(\alpha\) to pochodna funkcji; kropki oznaczają, że dalsze wyrazy są rzędu \(h^2\), \(h^3\), \(h^4\) i wyższego. Na relację powyższą powołamy sie w dalszej części tego rozdziału. Wprowadzimy też oznaczenie na ten warunkowy moment statystyczny stopnia \(k\):

(5)\({\mathbb M}_k (x', t; h)= \langle [\xi(t+h)-\xi(t)]^k|\xi(t) = x' \rangle \)


Klasyfikacja procesów stochastycznych

Bazując na Równaniu (1), dokonamy klasyfikacji procesów stochastycznych.


1. Całkowicie losowy proces stochastyczny to taki proces dla ktorego


(6)\(p(x_n, t_n|x_{n-1}, t_{n-1}; \dots; x_0, t_0) = p(x_n, t_n) \)


Innymi słowy, proces w danej chwili \(t=t_n\) nie zależy od swej historii; nie zależy od tego jakie wartości przyjmował w poprzedzających chwilach czasu \(t_{n-1}, \dots, t_1, t_0\). Jest to totalne zaprzeczenie determinizmu.

Korzystając z Równania (2), otrzymamy rozkład n-wymiarowy

(7)\(p(x_n, t_n; \dots; x_0, t_0) = p(x_n, t_n) p(x_{n-1}, t_{n-1}) \dots p(x_1, t_1) \; p(x_0, t_0)\)

który jest iloczynem gęstości jednowymiarowych \(p(x_i, t_i)\,\). Jest to relacja mówiąca, że zmienne losowe \(\xi_i =\xi(t_i)\) są zmiennymi losowymi niezależnymi. Aby całkowicie opisać taki proces, wystarczy znać rozkład jednowymiarowy \(p(x_i, t_i)\,\). Rozkład preawdopodobieństwa dowolnego rzędu jest iloczynem rozkładów jednowymiarowych. Nie ma takiego realnego procesu losowego.


2. Proces Markowa to taki proces dla którego


(8)\(p(x_n, t_n|x_{n-1}, t_{n-1}; \dots; x_0, t_0) = p(x_n, t_n|x_{n-1}, t_{n-1}), \; \; t_n > t_{n-1} > \dots > t_0 \)

Innymi słowy, stan układu w chwili \(t=t_n\) zależy od chwili poprzedniej \(t_{n-1}\), ale już nie zależy od chwil wcześniejszych niż \(t_{n-1}\). Można powiedzieć, że układ ma krótką pamięć.

Korzystając z Równania (2), otrzymamy rozkład n-wymiarowy


(9)\(p(x_n, t_n; \dots; x_0, t_0) = p(x_n, t_n|x_{n-1}, t_{n-1} )\; \)


\[ \times p(x_{n-1}, t_{n-1}|x_{n-2}, t_{n-2} ) \dots p(x_1, t_1|x_0, t_0 ) \; p(x_0, t_0)\]


który jest iloczynem gęstości warunkowych \(p(x_i, t_i|x_{i-1}, t_{i-1}) \,\) i jednowymiarowej gęstości \(p(x_0, t_0)\,\), która opisuje stan początkowy procesu stochastycznego \(\xi(t)\) w chwili początkowej \(t=t_0\).


Równanie Chapmana-Kołmogorowa

Sydney Chapman (1888–1970) [2]

Relacja (3) jest słuszna dla dowolnych procesów stochastycznych. Dla procesów Markowa redukuje się ona do postaci


(10)

\(p(x_2, t_2|x_0, t_0) = \int_{-\infty}^{\infty} p(x_2, t_2|x_1, t_1) p(x_1, t_1|x_0, t_0) dx_1 \)



Andriej Nikołajewicz Kołmogorow, (ros. Андре́й Никола́евич Колмого́ров) (1903–1987) [3]

Równanie to nazywa się równaniem Chapmana-Kołmogorowa dla procesów stochastycznych Markowa. O ile w Równaniu (3) występują dwie różne wielkości, o tyle w Równaniu (10) pojawia się tylko jedna wielkość, a mianowicie gęstość warunkowa \(p(x, t|y, s)\). Można to równanie traktować jak nieliniowe równanie całkowe dla gęstości warunkowej \(p(x, t|y, s)\) (nieliniowe, ponieważ po prawej stronie jest iloczyn \(p \cdot p\)). W równaniu tym nie pojawia się żadna informacja o specyfice procesu stochastycznego który chciałbym badać. W tym sensie jest ono mało użyteczne. Ale równanie to stanowi punkt wyjścia do wyprowadzenia takich równań, w których pojawia sie informacja specyficzna dla rozważanego procesu stochastycznego. Pamiętajmy o tym, że jeżeli chcemy modelować jakiś proces stochastyczny, to musimy mieć jakieś informacje o tym procesie. Przecież nie możemy modelować procesów o których nic nie wiemy. Wiemy z kursów fizyki, że ewolucja układów fizycznych ( i nie tylko fizycznych) jest opisywana za pomocą równań różniczkowych, czy to zwyczajnych czy to cząstkowych. Dla przykładu równania Newtona sa równaniami różniczkowymi zwyczajnymi, a równania Maxwella czy też równanie Schrodingera są równaniami różniczkowymi cząstkowymi. Przejdziemy teraz do wyprowadzenia takich równań różniczkowych, a właściwie jednego równania.

Proste równanie Kramersa-Moyala

Równania ewolucji, opisujące zmiany w czasie, muszą bazować na równaniach różniczkowych ze względu na czas, bo to przecież pochodna funkcji ze względu na określoną zmienną charakteryzuje tempo zmiany funkcji przy zmianie argumentu. Startując z równania Chapmana-Kołmogorowa, chcemy wyznaczyć czasowa zmianę gęstości warunkowej \(p(x, t|y, s)\) czyli pochodną


\(\frac{\partial p(x, t|y, s)}{\partial t} = \lim_{h\to 0} \; \frac{1}{h} [ p(x, t+h|y, s) - p(x, t|y, s) ]\)


Skorzystamy teraz z równania Chapmana-Kołmogorowa: podstaw

\( x_2 \to x, \; \; t_2\to t+h, \; \; x_0 \to y, \; \; t_0 \to s, \; \; x_1 \to x', \; \; t_1 \to t\)

otrzymując równanie

(11)\(p(x, t+h|y, s) = \int_{-\infty}^{\infty} p(x, t+h|x', t) p(x', t|y, s) dx', \; \; \; \; \; \; \; \; t>s \)


Zdefiniujemy następującą funkcję


(12)\(C(\omega, t, h; x') = \int_{-\infty}^{\infty} \mbox{e}^{i\omega(x-x')} \; p(x, t+h|x', t) \; dx \)


Przypomina ona nieco (warunkową) funkcję charakterystyczną procesu stochastycznego \(\xi(t)\). Przypominamy, że funkcja charakterystyczna procesu stochastycznego \(\xi(t)\) jest transformatą Fouriera gęstości rozkładu prawdopodbieństwa procesu stochastycznego \(\xi(t)\). W tym przypadku, mozna przepisać powyższą relacje jako transformatę Fouriera w postaci

\(\mbox{e}^{i\omega x'} \; C(\omega, t, h; x') = \int_{-\infty}^{\infty} \mbox{e}^{i\omega x} \; p(x, t+h|x', t) \; dx \)


Odwrotna transformata Fouriera ma postać


\( p(x, t+h|x', t) = \frac{1}{2\pi} \int_{-\infty}^{\infty} \mbox{e}^{- i\omega x} \; \mbox{e}^{i\omega x'} \; C(\omega, t, h; x') \; d\omega \)

czyli


(13)\( p(x, t+h|x', t) = \frac{1}{2\pi} \int_{-\infty}^{\infty} \mbox{e}^{- i\omega (x-x')} \;C(\omega, t, h; x') \; d\omega \)

Widać więc, że relacje (12) i (13) są transformacją Fouriera i odwrotną transformacją Fouriera.

W Równaniu (12), podcałkową funkcję exponencjalną rozwiniemy w szereg Taylora

\[\mbox{e}^{i\omega (x- x')} = \sum_{k=0}^{\infty} \frac{(i\omega)^k}{k!} \; (x-x')^k \]


Wówczas Równanie (12) przyjmie postać


(14)\(C(\omega, t, h; x') = \sum_{k=0}^{\infty} \frac{(i\omega)^k}{k!} \;\int_{-\infty}^{\infty} (x-x')^k \; p(x, t+h|x', t) \; dx \)

Na mocy relacji (5) wyrażenie całkowe jest warunkowym momentem statystycznym przyrostu procesu stochastycznego i stąd mozemy przepisać warunkową funkcję charakterystyczna w postaci


(15)\(C(\omega, t, h; x') = \sum_{k=0}^{\infty} \frac{(i\omega)^k}{k!} \; {\mathbb M}_k(x', t; h) \)


Wyrażenie to wstawimy do Równania (13):


(16)\( p(x, t+h|x', t) = \sum_{k=0}^{\infty} \frac{1}{k!} \; \left(\frac{1}{2\pi} \int_{-\infty}^{\infty} (i\omega)^k \, \mbox{e}^{- i\omega (x-x')} \,d\omega \right)\; {\mathbb M}_k(x', t; h \)

Rozszyfrujmy wyrażenie w nawiasie:


\[ \frac{1}{2\pi} \int_{-\infty}^{\infty} (i\omega)^k \, \mbox{e}^{- i\omega (x-x')} \,d\omega = \left(-\frac{\partial}{\partial x}\right)^k \frac{1}{2\pi} \int_{-\infty}^{\infty}\, \mbox{e}^{- i\omega (x-x')} \,d\omega \]

\[ = (-1)^k \frac{\partial^k}{\partial x^k} \; \delta(x-x') \]


Wykorzystaliśmy przedstawienie \(\delta\)-Diraca jako transformatę Fouriera funkcji \(f(\omega) =1\) (patrz "Dodatek matematyczny"). W rezultacie Równanie (16) przyjmie postać


(17)\( p(x, t+h|x', t) = \sum_{k=0}^{\infty} \frac{(-1)^k}{k!} \; \frac{\partial^k}{\partial x^k} \; \delta(x-x') {\mathbb M}_k(x', t; h) \)

Wyrażenie to wstawimy do równania Chapmana-Kolmogorowa (11)


(18)\( p(x, t+h|y, s) = \sum_{k=0}^{\infty} \frac{(-1)^k}{k!} \; \frac{\partial^k}{\partial x^k} \int_{-\infty}^{\infty} \delta(x-x') {\mathbb M}_k(x', t; h) p(x', t|y, s) dx' \)


\[ = p(x, t|y, s) + \sum_{k=1}^{\infty} \frac{(-1)^k}{k!} \; \frac{\partial^k}{\partial x^k} {\mathbb M}_k(x, t; h) p(x, t|y, s) \]

Wykorzystaliśmy podstawową (definiującą) własność \(\delta\)-Diraca przy całkowaniu. Wydzieliliśmy w sumowaniu wyraz dla \(k=0\) pamiętając, że pochodna zerowego rzędu jest operacją tożsamościową (inaczej mówiąc mnożeniem przez 1) oraz moment statystyczny zerowego rzędu \({\mathbb M}_0(x, t; h)=1 \) (inaczej mówiąc, jest to wartość średnia z 1 lub warunek normowania warunkowej gęstości prawdopodobieństwa).

Przeniesiemy na lewą stronę pierwszy wyraz po prawej stronie, a następnie obustronnie podzielimy równanie przez przyrost czasu \(h\). W granicy \(h \to 0\) otrzymamy równanie


(19)\( \frac{\partial p(x, t|y, s)}{\partial t} = \sum_{k=1}^{\infty} \frac{(-1)^k}{k!} \; \frac{\partial^k}{\partial x^k} \; {\mathbb B}_k(x, t) p(x, t|y, s) \)

Równanie to nazywa się równaniem Kramers-Moyala.


W równaniu tym wielkość


(20)\( {\mathbb B}_k(x, t) = \lim_{h \to 0} \frac{1}{h} {\mathbb M}_k(x, t; h) = \lim_{h \to 0} \frac{1}{h} \; \langle [\xi(t+h)-\xi(t)]^k|\xi(t) = x \rangle \)


Jest to k-ty moment statystyczny przyrostu procesu stochastycznego podzielony przez nieskończenie mały przedział czasu.


Hendrik Anthony Kramers (1894–1952) [4]
Enrique_Moyal (1910–1998) [5]

Równanie Kramersa-Moyala jest równaniem różniczkowym cząstkowym nieskończonego rzędu ze względu na zmienną "przestrzenną" \(x\). Ponadto po prawej stronie mamy nieskończenie wiele wyrazów. Równań takich nie potrafimy rozwiązywać, więc jest ono mało użyteczne chyba że upraszcza się dla niektórych procesów stochastycznych. Gdyby jakieś momenty statystyczne zerowały się dla \(k> k_0\), równanie zawierałoby skończoną ilość wyrazów i być może mogłoby poddać się analizie.

Rozpatrzmy proces deterministyczny (nie losowy). Jego (deterministyczna) trajektoria zadana jest przez znaną zwykłą funkcję \(\xi(t) = f(t)\). Dla "zwykłych" funkcji przyrost \(f(t+h)-f(t) = \alpha (t) h + ... \), gdzie \(\alpha(t) = f'(t)\) jest pochodna funkcji \(f(t)\). Więc

\[\frac{[f(t+h)-f(t)]^k}{h} = 0\]

dla \(k=2, 3, 4, ...\) gdy \(h \to 0\). Jedynie wyraz dla \(k=1\) jest różny od zera. Wówczas równanie Kramersa-Moyala redukuje sie do postaci:


(21)\( \frac{\partial p(x, t|y, s)}{\partial t} = - \frac{\partial}{\partial x} \; \alpha(t) p(x, t|y, s) \)

Jest to równanie różniczkowe cząstkowe pierwszego rzędu, a takie równania zawsze potrafimy rozwiązać metodą charakterystyk. Rozwiązanie powyższego równania jest znane. Ale to pozostawimy jako ćwiczenie do odrobienia w domu.


UWAGI


B1. W odróżnieniu od równania Chapmana-Kołmogorowa, w równaniu Kramersa-Moyala zawarta jest informacja specyficzna dla określonego procesu stochastycznego \(\xi(t)\). Informacja ta jest zawarta w funkcjach \({\mathbb B}_k(x, t)\): to są momenty statystyczne przyrostu procesu stochastycznego \(\xi(t)\)podzielone przez przyrost czasu. W równaniu Chapmana-Kołmogorowa nie ma takiej informacji.

B2. W równaniu Kramersa-Moyala zmienne \((y, s)\) są "nieme", to znaczy operatory różniczkowania ze względu na czas i na zmienne 'przestrzenne' działają na zmienne \(t\) i \(x\), a nie działają na \(s\) i \(y\).

B3. Równanie Kramersa-Moyala ma postać równania ciągłości (prawa zachowania)

\[ \frac{\partial p(x, t|y, s)}{\partial t} = - \frac{\partial}{\partial x} \; J(x, t|y, s) \]

gdzie

\[J(x, t|y, s) = \sum_{k=1}^{\infty} \frac{(-1)^{k-1}}{k!} \; \frac{\partial^{k-1}}{\partial x^{k-1}}\; {\mathbb B}_k(x, t) p(x, t|y, s) \]

nazywa się strumieniem prawdopodobieństwa.

B4. Równanie Kramersa-Moyala jest spełnione dla gęstości warunkowej (funkcji prawdopodobieństwa przejścia) \(p(x, t|y, s) \), Znając tę funkcję oraz początkowy rozkład jednowymiarowy \(p(x, t_0)\), poprzez relację (8), możemy otrzymać dowolne rozkłady wielowymiarowe. W tym sensie, proces Markowa jest opisany zupełnie.


B5. Dla dowolnych procesów ( nie tylko Markowa) zawsze jest spełniona relacja


\[p(x_2, t_2) = \int_{-\infty}^{\infty} p(x_2, t_2|x_1, t_1) p(x_1, t_1) dx_1 \]


lub, analogicznie do Równania (11), takie oto równanie


\[p(x, t+h) = \int_{-\infty}^{\infty} p(x, t+h|x', t) p(x', t) dx', \; \; \; \; \; \; t>s \]


Ponieważ przy wyprowadzaniu równania Kramersa-Moyala wykonywaliśmy przekształcenia tylko na funkcji podcałkowej \(p(x, t+h|x', t)\), możemy dokładnie te same kroki powtórzyć w powyższym równaniu i wówczas otrzymamy tę samą postać równania Kramersa-Moyala dla gęstości prawdopodobieństwa \(p(x, t)\), to znaczy


(22)\( \frac{\partial p(x, t)}{\partial t} = \sum_{k=1}^{\infty} \frac{(-1)^k}{k!} \; \frac{\partial^k}{\partial x^k} \; {\mathbb B}_k(x, t) p(x, t) \)

Równanie to jest spełnione dla jednowymiarowej gęstości prawdopodobieństwa dowolnego procesu stochastycznego. Ale w odróżnieniu od przypadku procesu Markowa, otrzymujemy informacje tylko i wyłącznie o jednowymiarowej gęstości prawdopodobieństwa. Natomiast nic nie wiemy o rozkładach wielowymiarowych. To zasadniczo odróżnia procesy Markowa (markowowskie) i procesy niemarkowowskie.

Proste równanie Kołmogorowa (równanie Fokkera-Plancka)

Jak wspomnieliśmy powyżej, równanie Kramersa-Moyala jest równaniem różniczkowym cząstkowym nieskończonego rzędu ze względu na zmienną "przestrzenną" x. Ponadto po prawej stronie mamy nieskończenie wiele wyrazów. Równań takich nie potrafimy rozwiązywać, więc jest ono mało użyteczne chyba że upraszcza się dla niektórych procesów stochastycznych. Gdyby jakieś momenty statystyczne zerowały się dla k > k_0, równanie zawierałoby skończoną ilość wyrazów i być może mogłoby poddać się analizie. Jeden przykład podaliśmy: był to proces deterministyczny. Istnieje cała klasa procesów dla których równanie Kramersa-Moyala zawiera skończoną ilość wyrazów. Okazuje się, że jeżeli zeruje się chociażby jeden wyraz \({\mathbb B}_k(x, t)\) dla \(k=2n\), to znaczy gdy \(k\) jest liczbą parzystą, to zerują się wszystkie funkcje \({\mathbb B}_k(x, t)\) z wyjątkiem \({\mathbb B}_2(x, t)\) i \({\mathbb B}_1(x, t)\). Stanowi to treść twierdzenia Pawuli.


TWIERDZENIE PAWULI

Jeżeli

\[{\mathbb B}_{2n}(x, t) = 0 \]

dla \(n \ge 1\) to


\[{\mathbb B}_3(x, t) = {\mathbb B}_4(x, t) = {\mathbb B}_5(x, t) = \dots = 0 \]


Twierdzenie Pawuli nie mówi nic, gdy zeruje się wyraz o nieparzystym wskaźniku. Ale jeżeli zeruje się jakiś wyraz o parzystym wskaźniku, to zerują sie wszystkie wyrazy z wyjatkiem co najwyżej pierwszego i drugiego wyrazu. W takim przypadku równanie Kramersa-Moyala redukuje sie do postaci


(23)\( \frac{\partial p(x, t|y, s)}{\partial t} = -\frac{\partial}{\partial x} \; F(x, t) p(x, t|y, s) + \frac{1}{2} \frac{\partial^2}{\partial x^2} \; D(x, t) p(x, t|y, s) \)


Adriaan Fokker (1887–1972) [6]
Max Planck (1858–1947) [7]

Równanie to nazywa sie równaniem Fokkera-Plancka lub prostym równaniem Kołmogorowa, a proces stochastyczny opisywany tym równaniem nazywa się procesem dyfuzji. Ten proces dyfuzji jest znacznie szerszą klasą niż poznany wcześniej proces dyfuzji który jest procesem Wienera.


Funkcja

(24)

\( F(x, t)= {\mathbb B}_1(x, t) = \lim_{h \to 0} \frac{1}{h} \; \langle \xi(t+h)-\xi(t)|\xi(t) = x \rangle \)


nazywa się dryfem. Jest to warunkowa wartość średnia przyrostu procesu stochastycznego \(\xi(t)\). Funkcja

(25)

\( D(x, t) = {\mathbb B}_2(x, t) = \lim_{h \to 0} \frac{1}{h} \; \langle [\xi(t+h)-\xi(t)]^2|\xi(t) = x \rangle \)


nazywa się funkcją dyfuzji lub często współczynnikiem dyfuzji (chociaż słowo 'współczynniki' kojarzy nam sie z wielkościa stałą, a nie funkcją). Ta wielkość jest momentem statystycznym drugiego rzędu przyrostu procesu stochastycznego \(\xi(t)\). Tak więc dla procesów dyfuzji wystarczy znać tylko dwa pierwsze momenty statystyczne przyrostu procesu stochastycznego \(\xi(t)\).

Równanie Fokkera-Plancka jest równaniem różniczkowym cząstkowym drugiego rzędu, typu parabolicznego. Teoria takich równań jest dobrze rozwinięta. Stąd analiza procesów dyfuzji jest znacznie łatwiejsza niż innych procesów, ale to wcale nie oznacza że jest trywialna czy prosta.


Jezeli rozważamy wektor procesów stochastycznych


\[\vec{\xi}(t)= [\xi_1(t), \xi_2(t), \dots, \xi_n(t)]\]


który jest procesem Markowa i dodatkowo jest procesem dyfuzji, to równanie Fokkera-Plancka ma postać


(26)

\[ \frac{\partial p(\vec{x}, t|\vec{y}, s)}{\partial t} = -\sum_{i=1}^n \frac{\partial}{\partial x_i} \; F_i(\vec{x}, t) p(\vec{x}, t|\vec{y}, s) + \frac{1}{2} \sum_{i,j=1}^n \frac{\partial^2}{\partial x_i \partial x_j} \; D_{ij}(\vec{x}, t) p(\vec{x}, t|\vec{y}, s) \]


gdzie


\[p(\vec{x}, t|\vec{y}, s) = p(x_1, x_2, \dots, x_n, t|y_1, y_2, \dots, y_n, s)\]


jest n-wymiarową warunkową gęstością prawdopodobieństwa oraz


\[\vec{x} = [x_1, x_2, \dots, x_n], \; \; \; \; \vec{y} = [y_1, y_2, \dots, y_n]\]


Funkcje (wektor) dryfu

(27)\( F_i(\vec{x}, t)= \lim_{h \to 0} \frac{1}{h} \; \langle \xi_i(t+h)-\xi_i(t)|\vec{\xi}(t) = \vec{x} \rangle \)

jest warunkową wartość średnia przyrostu składowej \(\xi_i(t)\,\). Macierz dyfuzji

(28)\( D_{ij}(\vec{x}, t) = \lim_{h \to 0} \frac{1}{h} \; \langle [\xi_i(t+h)-\xi_i(t)] [\xi_j(t+h)-\xi_j(t)]|\vec{\xi}(t) = \vec{x} \rangle \)


Warunek w wartościach średnich oznacza spełnienie jednocześnie wszystkich n-warunków dla każdej składowej wektora \(\vec{\xi}(t)\):

\[\vec{\xi}(t) = \vec{x} \; \Leftrightarrow \; \{\xi_1(t) = x_1, \xi_2(t) = x_2, \dots, \xi_n(t) = x_n\}\]

Odwrotne równanie Kramersa-Moyala

Dotychczas rozważaliśmy zmianę czasową warunkowej gęstości prawdopodobieństwa \(p(x, t|y,s)\,\) ze względu na czas \(t\) ("Przyszłość"). Obecnie zbadamy zmianę czasową warunkowej gęstości prawdopodobieństwa \(p(x, t|y,s)\,\) ze względu na czas \(s\) ("Przeszłość"). Okazuje się, że tego typu zmiana czasowa jest istotna przy analizie tzw. pierwszego wyjścia procesu stochastycznego z jakiegos obszaru. Jak otrzymać modyfikację rozwinięcia Kramersa-Moyala funkcji \(p(x, t|y,s)\,\) ze względu na czas \(s\). Istnieje kilka sposobów, ale przedstawimy najprostszy, chociaż mniej elegancki sposób.

Potrzebna nam będzie następująca wersja równania Chapmana-Kołmogorowa:


(29)\(p(x, t|y, s) = \int_{-\infty}^{\infty} p(x, t|x', s+h) p(x', s+h|y, s) dx', \; \; \; t>s+h>s \)


Przedstawimy drugą funkcję podcałkową w postaci

\[p(x', s+h|y, s) = \int_{-\infty}^{\infty} \delta(z-x')p(z, s+h|y, s) dz \]

oraz rozwiniemy dystrybucję \(\delta\)-Diraca w szereg Taylora:

\[\delta(z-x') = \delta([y-x'] + [z-y])) = \delta(y-x')+ \sum_{k=1}^{\infty} \frac{(z-y)^k}{k!} \, \frac{\partial^k}{\partial y^k} \, \delta(y-x')\]

Wstawiamy to rozwinięcie otrzymując

\[p(x', s+h|y, s)= \delta(y-x') + \sum_{k=1}^{\infty} \frac{1}{k!} \, \int_{-\infty}^{\infty} (z-y)^k p(z, s+h|y, s) dz \frac{\partial^k}{\partial y^k} \, \delta(y-x') \]

\[ = \delta(y-x') + \sum_{k=1}^{\infty} \frac{1}{k!} \, {\mathbb M}_k(y, s; h) \frac{\partial^k}{\partial y^k} \, \delta(y-x') \]

Wyrażenie to wstawimy do Równania (29) i z łatwościa obliczymy całki w których pojawia sie \(\delta\)-Diraca. Jako wynik otrzymamy relację


\[p(x, t|y, s) = p(x, t|y, s+h) \; \]


\[ + \sum_{k=1}^{\infty} \frac{1}{k!} \,{\mathbb M}_k(y, s; h) \frac{\partial^k}{\partial y^k} \int_{-\infty}^{\infty} p(x, t|x', s+h) \delta(y-x') dx' \]


\[ = p(x, t|y, s+h) + \sum_{k=1}^{\infty} \frac{1}{k!} \,{\mathbb M}_k(y, s; h) \frac{\partial^k}{\partial y^k} p(x, t|y, s+h) \]

Przeniesiemy na lewą stronę pierwszy wyraz po prawej stronie i następnie obustronnie podzielimy przez przyrost czasu \(h\). W granicy \(h \to 0;\) otrzymamy odwrotne równanie Kramersa-Moyla:


(30)\( - \frac{\partial p(x, t|y, s) }{\partial s} = \sum_{k=1}^{\infty} \frac{1}{k!} \,{\mathbb B}_k(y, s) \frac{\partial^k}{\partial y^k} p(x, t|y, s) \)

Dla porównania przypomnijmy w tym miejscu proste równanie Kramersa-Moyla:


(31)\( \frac{\partial p(x, t|y, s)}{\partial t} = \sum_{k=1}^{\infty} \frac{(-1)^k}{k!} \; \frac{\partial^k}{\partial x^k} \; {\mathbb B}_k(x, t) p(x, t|y, s) \)


Przepiszmy oba te równania w postaci

\[ \frac{\partial p(x, t|y, s)}{\partial t} = {\mathbb L}\, p(x, t|y, s), \; \; \; \; \; {\mathbb L} = \sum_{k=1}^{\infty} \frac{(-1)^k}{k!} \; \frac{\partial^k}{\partial x^k} \; {\mathbb B}_k(x, t) \]


\[ - \frac{\partial p(x, t|y, s) }{\partial s} = {\mathbb L}^+ p(x, t|y, s), \; \; \; \; \; {\mathbb L}^+ = \sum_{k=1}^{\infty} \frac{1}{k!} \,{\mathbb B}_k(y, s) \frac{\partial^k}{\partial y^k} \]


Operatory \({\mathbb L}\,\) oraz \({\mathbb L}^+\,\) są operatorami różniczkowym nieskończonego rzędu. Działają one w przestrzeni dystrybucji. Elementami tej przestrzeni są gęstości prawdopodobieństwa, funkcje które szybko znikają na granicach przestrzeni fazowej i są normowalne do jedności. W przestrzeni tej można zdefiniować iloczyn skalarny dwóch funkcji f oraz g jako całka:


\[ \langle f|g\rangle = \int_{-\infty}^{\infty} f(x) g(x) dx \]


Zachodzi nastepująca relacja:

(32)\( \langle {\mathbb L} f|g\rangle = \langle f| {\mathbb L}^+g\rangle \)

Dowód tej relacji polega na wstawieniu operatora \({\mathbb L}\,\) do wyrażenia podcałkowego w definicji iloczynu skalarnego

\[ \langle {\mathbb L} f|g\rangle = \int_{-\infty}^{\infty} [{\mathbb L}f(x)] g(x) dx \]


i wielokrotnego całkowania przez części. Wszystkie wyrażenia pozacałkowe w granicach \(\infty \) i \((-\infty) \) znikają i pozostają tylko wyrazy całkowe.

Relacja (32) mówi, że operatory \({\mathbb L}\,\) oraz \({\mathbb L}^+\,\) są wzajemnie sprzężone do siebie. Ponieważ \({\mathbb L}\ne {\mathbb L}^+\), wnioskujemy, że operator \({\mathbb L}\,\) nie jest operatorem samosprzężonym (hermitowskim). Skoro tak, to w ogólności jego wartości własne nie muszą być liczbami rzeczywistymi.



Odwrotne równanie Kołmogorowa

Dla procesów dyfuzji, znikają wszystkie warunkowe wartości średnie \({\mathbb B}_k(x, t)\) dla \(k>2\). Pozostają co najwyżej dwie pierwsze funkcje \(F(x, t) = {\mathbb B}_1(x, t)\) oraz \(D(x, t) = {\mathbb B}_2(x, t)\). W takiej sytuacji odwrotne równanie Kramersa-Moyala redukuje sie do postaci


(33)\( - \frac{\partial p(x, t|y, s)}{\partial s} = F(y, s) \frac{\partial}{\partial y} \; p(x, t|y, s) + \frac{1}{2} D(y, s) \frac{\partial^2}{\partial y^2} \; p(x, t|y, s) \)


Równanie to nazywa sie odwrotnym równaniem Kołmogorowa z dryfem \(F(\vec{y}, s)\) i współczynnikiem dyfuzji \(D(\vec{y}, s)\).

Jezeli rozważamy wektor procesów stochastycznych


\[\vec{\xi}(t)= [\xi_1(t), \xi_2(t), \dots, \xi_n(t)]\]


który jest procesem Markowa i dodatkowo jest procesem dyfuzji, to odwrotne równanie Kołmogorowa ma postać


(34)

\[ - \frac{\partial p(\vec{x}, t|\vec{y}, s)}{\partial s} = \sum_{i=1}^n F_i(\vec{y}, s) \;\frac{\partial}{\partial y_i} \; p(\vec{x}, t|\vec{y}, s) + \frac{1}{2} \sum_{i,j=1}^n D_{ij}(\vec{y}, s) \; \frac{\partial^2}{\partial y_i \partial y_j} \; p(\vec{x}, t|\vec{y}, s) \]


gdzie (przypominamy)


\[p(\vec{x}, t|\vec{y}, s) = p(x_1, x_2, \dots, x_n, t|y_1, y_2, \dots, y_n, s)\]


jest n-wymiarową warunkową gęstością prawdopodobieństwa oraz


\[\vec{x} = [x_1, x_2, \dots, x_n], \; \; \; \; \vec{y} = [y_1, y_2, \dots, y_n]\]


Funkcje (wektor) dryfu

(35)\( F_i(\vec{y}, s)= \lim_{h \to 0} \frac{1}{h} \; \langle \xi_i(s+h)-\xi_i(s)|\vec{\xi}(s) = \vec{y} \rangle \)

jest warunkową wartość średnia przyrostu składowej \(\xi_i(t)\,\). Macierz dyfuzji

(36)\( D_{ij}(\vec{y}, s) = \lim_{h \to 0} \frac{1}{h} \; \langle [\xi_i(s+h)-\xi_i(s)] [\xi_j(s+h)-\xi_j(s)]|\vec{\xi}(s) = \vec{y} \rangle \)


Warunek w wyrażeniach dla wartości średnich oznacza spełnienie jednocześnie wszystkich n-warunków dla każdej składowej wektora \(\vec{\xi}(t)\):

\[\vec{\xi}(s) = \vec{y} \; \Leftrightarrow \; \{\xi_1(s) = y_1, \xi_2(s) = y_2, \dots, \xi_n(s) = y_n\}\]


W podsumowaniu tej części na temat procesów Markowa, należy przypomnieć kilka kwestii:

  • Dla procesów Markowa spełnione jest równanie Chapmana-Kołmogorowa. Równanie to można traktować jak (nieliniowe) równanie całkowe dla funkcji prawdopodobieństwa przejścia \(p(x, t|y, s)\).

Pojawia sie naturalne pytanie, gdzie w tym równaniu pojawia się charakterystyka określonego proces stochastycznego, powiedzmy \(\xi(t)\). Być może w warunkach początkowych-brzegowych? Wydaje się że jest ono mało pożyteczne w bezpośrednich zastosowaniach.

  • Startujac z równania Chapmana-Kołmogorowa, wyprowadziliśmy równanie Kramersa-Moyala. W równaniu tym pojawiają się charakterystyki określonego procesu stochastycznego \(\xi(t)\). Są one ukryte w funkcjach \({\mathbb B}_k(x, t)\), które to z kolei zawierają informacje o warunkowych wartościach średnich dla nieskończenie małych przyrostów procesu \(\xi(t)\). To jest ważne. Jeżeli badamy określony proces stochastyczny, to powinniśmy wiedzieć jak on się zmienia dla nieskończenie małych zmian czasu. Ale gdybyśmy nawet znali wszystkie funkcje \({\mathbb B}_k(x, t)\), to byłby kłopot aby rozwiązać równanie Kramersa-Moyala, które jest równaniem różniczkowym nieskończonego rzędu.
  • Twierdzenie Pawuli stanowi potężne narzędzie do badania procesów Markowa. Pozwala w pewnych przypadkach sprowadzić zagadnienie procesu stochastycznego Markowa do procesu dyfuzji. A opis procesu dyfuzji jest zdecydowanie prostszy. Bazuje on na równaniu Kołmogorowa, nazywanego przez fizyków (przyrodników) równaniem Fokkera-Plancka. Teoria takiego równania jest bardzo dobrze ugruntowana. Dla pełnej analizy procesu dyfuzji (Markowa) należy wyznaczyć tylko dwie funkcje (gdy badamy jeden proces): dryf i funkcję dyfuzji. To jest znacznie mniej niż znajomość nieskończenie wielu funkcji w równaniu Kramersa-Moyala.
  • Często modelujemy procesy i zjawiska losowe za pomocą równań różniczkowych. Przykładami takich równań są:
równania Newtona z losowa siłą, która modeluje wpływ otoczenia na układ
równania dynamiki populacyjnej w biologii 
równania kinetyki reakcji chemicznych 
równania opisujące fluktuacje cen akcji na giełdzie 

Pojawia sie naturalne pytanie, czy istnieje związek powyższych równań z równaniem Kramersa-Moyala czy Fokkera-Plancka. Odpowież brzmi:tak, w wielu przypadkach istnieje wzajemny związek pomiędzy takimi równaniami.