\[\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \newcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bff}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\nv}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\pv}{\overline} \newcommand{\iu}{\mathrm{i}} \newcommand{\ju}{\mathrm{j}} \newcommand{\im}{\mathrm{i}} \newcommand{\e}{\mathrm{e}} \newcommand{\real}{\operatorname{Re}} \newcommand{\imag}{\operatorname{Im}} \newcommand{\Arg}{\operatorname{Arg}} \newcommand{\Ln}{\operatorname{Ln}} \DeclareMathOperator*{\res}{res} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\sgn}{\operatorname{sgn}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \newcommand{\vir}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\norm}[1]{\lVert #1 \rVert} \newcommand{\tp}[1]{#1^{\top}} \renewcommand{\d}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-15mu}#1}^{\,#2}} \newcommand{\abs}[1]{\lvert#1\rvert} \newcommand{\pysty}[1]{\left[\begin{array}{@{}r@{}}#1\end{array}\right]} \newcommand{\piste}{\cdot} \newcommand{\qedhere}{} \newcommand{\taumatrix}[1]{\left[\!\!#1\!\!\right]} \newenvironment{augmatrix}[1]{\left[\begin{array}{#1}}{\end{array}\right]} \newenvironment{vaugmatrix}[1]{\left|\begin{array}{#1}}{\end{array}\right|} \newcommand{\trans}{\mathrm{T}} \newcommand{\EUR}{\text{\unicode{0x20AC}}} \newcommand{\SI}[3][]{#2\,\mathrm{#3}} \newcommand{\si}[2][]{\mathrm{#2}} \newcommand{\num}[2][]{#2} \newcommand{\ang}[2][]{#2^{\circ}} \newcommand{\meter}{m} \newcommand{\metre}{\meter} \newcommand{\kilo}{k} \newcommand{\kilogram}{kg} \newcommand{\gram}{g} \newcommand{\squared}{^2} \newcommand{\cubed}{^3} \newcommand{\minute}{min} \newcommand{\hour}{h} \newcommand{\second}{s} \newcommand{\degreeCelsius}{^{\circ}C} \newcommand{\per}{/} \newcommand{\centi}{c} \newcommand{\milli}{m} \newcommand{\deci}{d} \newcommand{\percent}{\%} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}}\]

Jatkuvan satunnaismuuttujan jakauma¶

Satunnaismuuttujan \(X\), jonka otosavaruus \(\Omega\) on (rajoitettu tai rajoittamaton) reaalilukuväli tai sellaisten yhdiste, sanotaan olevan jatkuva (continuous) tai jatkuvasti jakautunut (continuously distributed). Kuten diskreetin muuttujan tapauksessa, myös jatkuvan satunnaismuuttujan todennäköisyysjakaumaa mallinnetaan tiheysfunktiolla. Määritelmä kuitenkin poikkeaa hieman diskreetistä tapauksesta.

Määritelmä 2.2.1

Funktio \(f : \R \to [0, \infty)\) on otosavaruuden \(\Omega\) jatkuvan satunnaismuuttujan \(X\) tiheysfunktio ((probability) density function, pdf), jos

\(f(x)\geq 0\) aina, kun \(x \in \Omega\),
\(\int\limits_{-\infty}^{\infty}f(x)\,\rd x = 1\),
\(P(a \leq X \leq b) = \int\limits_{a}^{b}f(x)\,\rd x\) aina, kun \(a, b \in \R\).

Huomautus 2.2.2

Jälleen satunnaismuuttujan \(X\) tiheysfunktio \(f(x)\) on määritelty kaikilla reaaliluvuilla, vaikka sen muoto kerrottaisiinkin vain otosavaruudessa. Tieto \(f(x) = 0\), kun \(x\) ei kuulu otosavaruuteen, jätetään yleensä mainitsematta.

Tapahtuman \(\{x \in \Omega : a \leq x \leq b\}\) todennäköisyys jatkuvan satunnaismuuttujan tapauksessa lasketaan siis tiheysfunktion määrättynä (mahdollisesti epäoleellisena) integraalina

\[P(a\leq X\leq b)=\int_a^bf(x)\,\rd x,\]

kun \(a\) ja \(b\) ovat reaalilukuja, \(a = -\infty\) tai \(b = \infty\). Todennäköisyyttä voi havainnollistaa tiheysfunktion ja \(x-\)akselin jäävän alueen pinta-alana, kun \(x\in[a,b]\).

Huomautus 2.2.3

Toisin kuin diskreeteillä satunnaismuuttujilla jatkuvan satunnaismuuttujan tiheysfunktion arvo ei kerro alkeistapahtuman todennäköisyyttä. Itse asiassa todennäköisyys sille, että jatkuva satunnaismuuttuja \(X\) saa yksittäisen arvon otosavaruudesta on nolla, sillä

\[P(X = a) = P(a \leq X \leq a) = \int_a^{a}f(x)\,\rd x = 0.\]

Näin jatkuvalle satunnaismuuttujalle

\[P(a\leq X\leq b)=P(a\leq X<b)=P(a<X\leq b)=P(a<X<b).\]

Tässä yllättävältä kuulostavassa ominaisuudessa ei kuitenkaan ole mitään ristiriitaa todellisuuden kanssa. Nimittäin jatkuvan satunnaismuuttujan arvoa ei voi mitata täysin tarkasti, vaan mittaustulosta edustaa paremminkin mittaustarkkuudesta riippuva reaalilukuväli. Jos esimerkiksi satunnaismuuttujan \(X\) arvoja mitataan yhden desimaalin tarkkuudella, niin arvon \(5.2\) realisoitumisen todennäköisyys on

\[P(5.15\leq X<5.25)=\int_{5.15}^{5.25}f(x)\,\rd x.\]

Diskreetissä tapauksessa tiheysfunktiolle löytyy intuitiivinen tulkinta pistetodennäköisyysfunktiona. Jatkuvan satunnaismuuttujan tapauksessa tiheysfunktion arvot eivät kuitenkaan kuvaa todennäköisyyksiä, vaan sen rooli on tulkittava toisin. Olkoon jatkuvasta satunnaismuuttujasta \(X\) kerätty väleiksi luokiteltu frekvenssijakauma. Piirretään tähän luokitukseen perustuva histogrammi siten, että kunkin osavälin kohdalle piirretyn pylvään pinta-ala kuvaa kyseisen välin todennäköisyyttä frekvenssitulkinnan mukaisesti. Tällöin pylvään korkeudeksi tulee vastaavalle osavälille osuneiden mittaustulosten suhteellinen frekvenssi jaettuna osavälin pituudella. Tällainen histogrammi lähestyy muuttujan \(X\) tiheysfunktion kuvaajaa, kun sekä koetoistojen määrää että osavälien lukumäärää kasvatetaan rajatta.

Jatkuvan satunnaismuuttujan kertymäfunktio määritellään samaan tapaan kuin diskreetillekin muuttujalle.

Määritelmä 2.2.4

Jatkuvan satunnaismuuttujan \(X\) kertymäfunktio (cumulative distribution function, cdf) on funktio \(F : \R \rightarrow [0, 1]\),

\[F(x)=P(X\leq x)=\int_{-\infty}^{x}f(t)\,\rd t.\]

Kertymäfunktion arvo on siihen mennessä kertynyt todennäköisyys. Funktio on kasvava ja sillä on ominaisuudet

\[0\leq F(x)\leq 1, \qquad \lim_{x\to-\infty}F(x)=0 \qquad\text{ja}\qquad \lim_{x\to\infty}F(x)=1.\]

Lause 2.2.5

Pisteissä \(x\), joissa tiheysfunktio \(f(x)\) on jatkuva, on kertymäfunktiolla derivaatta

\[F'(x)=f(x).\]

Piilota/näytä todistus

Nyt löydetään sellainen vakio \(a\), että tiheysfunktio on jatkuva välillä \([a,x]\). Täten

\[F(x)=\int_{-\infty}^xf(t)\,\rd t = \int_{-\infty}^{a}f(t)\,\rd t + \int_a^x f(t)\,\rd t = C + \int_{a}^{x}f(t)\,\rd t,\]

missä \(C\) on vakio. Analyysin peruslauseen nojalla tällöin \(F'(x) = f(x)\).

Kertymäfunktion \(F\) avulla voi esittää erilaisten tapahtumien todennäköisyydet, esimerkiksi

\[P(a \leq X \leq b) = F(b) - F(a), \quad P(X \leq a) = F(a) \quad\text{ja}\quad P(X \geq a) = 1 - F(a)\]

Kaikissa epäyhtälömerkeistä voi jatkuvien satunnaismuuttujien tapahtumissa jättää yhtäsuuruuden myös pois.

Yksinkertaisin jatkuvan satunnaismuuttujan jakauma on jatkuva tasajakauma

Määritelmä 2.2.6

Jatkuva satunnaismuuttuja \(X\) noudattaa jatkuvaa tasajakaumaa (continuous uniform distribution) välillä \([a,b]\), \(X\sim \Tas(a,b)\), jos sen otosavaruus on väli \([a,b]\) ja tiheysfunktio \(f(x)\) on vakio tällä välillä. Tällöin satunnaismuuttujan \(X\) tiheysfunktio on

\[f(x)=\frac{1}{b-a},\qquad\text{kun }x\in[a,b].\]

Esimerkki 2.2.7

Jos erityisesti ole kerrottu mitään muuta todennäköisyysjakaumaa, niin maininta ‘valitaan satunnaisesti’ luku joltakin reaalilukuväliltä johtaa juuri jatkuvaan tasajakaumaan.

Henkilö saapuu töihin jollakin satunnaisella hetkellä välillä 07.00-09.00 ja olkoon satunnaismuuttuja \(X=\)‘Saapumisaika’. Jos oletetaan, että jokainen saapumishetki on yhtä todennäköinen, niin silloin satunnaismuuttujan jakauma on \(X\sim \mathrm{Tas}(7,9)\). Sen tiheysfunktio on vakio \(f(x)=\dfrac{1}{9-7}=\dfrac12=0.5\) otosavaruudessa \(\Omega=[7,9]\).

Todennäköisyys, että henkilö saapuu töihin klo 8.00-8.30, on \(P(8\leq X \leq 8.5)=0.25\). Arvon voi laskea usealla tavalla. Alla on kuvattu tiheysfunktio \(f(x)=0.5\) ja tapahtuma \(8\leq X \leq 8.5\). Ilman integrointiakin saa väritetyn suorakulmion pinta-alaksi \(0.5\cdot(8.5-8)=0.25\). Tasajakauman kohdalla tapahtuman todennäköisyys on myös suoraan välin \([8,8.5]\) pituuden suhde koko otosavaruuden pituuteen \((8.5-8)/(9-7)=0.25\).

Ohjelmilla laskettaessa tapahtuman todennäköisyys lasketaan kertymäfunktion \(F(x)\) avulla \(P(8\leq X \leq 8.5)=F(8.5)-F(8)\).

Matlabissa tämän saa komennolla

   unifcdf(8.5,7,9)- unifcdf(8,7,9)

Vastaava komento R:ssä on

   punif(8.5,7,9)- punif(8,7,9)

Edellä luonnehdittiin jakaumaa sanomalla ‘jokainen saapumishetki on yhtä todennäköinen’. Tarkasti ottaen yksittäisen saapumishetken todennäköisyys on \(=0\) jatkuvan jakauman ominaisuuksien mukaisesti. Täsmällisempi ilmaus olisikin, että jokaisella kiinteän pituisella aikavälillä otosavaruudessa saapumiselle on sama todennäköisyys. Esimerkiksi henkilö saapuu paikalle yhden minuutin aikana todennäköisyydellä 1/120 valittinpa minuutti mistä tahansa väliltä 7.00-9.00. Jos aika mitattaisiin vain minuutin tarkkuudella, olisi satunnaismuuttujan jakauma diskreetti tasajakauma. Kuitenkin jakauman diskreettiys/jatkuvuus määräytyy satunnaismuuttujan todellisen luonteen perusteella, vaikka mittaustarkkuuden rajoissa kaikki jatkuvat satunnaismuuttujat saavatkin diskreettejä arvoja.

Kuva. \(X\sim\mathrm{Tas}(7,9)\) tiheysfunktio \(f(x)=0.5\) ja tapahtuma \(X\in[8, 8.5]\). Väritetyn alueen pinta-ala on tapahtuman todennäköisyys \(=0.25\).

Esimerkki 2.2.8

Oletetaan, että satunnaismuuttujan \(X\) tiheysfunktio on muotoa \(f(x)=cx\) otosavaruudessa \(\Omega=[0,1]\). Vakio \(c\) voidaan ratkaista tietäen, että koko otosavaruuden todennäköisyys on oltava \(=1\). Ratkaistaan tämä integraalin avulla.

\[1= P(\Omega)=\int\limits_0^1 cx \ dx = \mathop{\Big/}\limits_{\mspace{-18mu}0}^{\mspace{17mu}1} \dfrac{cx^2}{2} = \dfrac{c}{2} \Rightarrow c=2\]

Todennäköisyys \(P(X\geq 0.6)\) saadaan integroimalla

\[P(X\leq 0.6)=\int\limits_{0.6}^{1} 2x \ dx = \mathop{\Big/}\limits_{\mspace{-18mu}0.6}^{\mspace{17mu}1} x^2 = 1-0.6^2=0.64\]

Kertymäfunktio saadaan integroimalla tiheysfunktiota integroimisvälinä \([0,x]\) ja se esitetään paloittain

\[\begin{split}F(x) = \begin{cases} 0, & \text{kun } x < 0 \\ x^2 & \text{kun } 0 \leq x \leq 1 \\ 1, & \text{kun } x > 1. \end{cases}\end{split}\]

Jos ensiksi on määritelty kertymäfunktio, niin tapahtuman todennäköisyyden saa sen avulla

\[P(X\geq 0.6) = 1- P(X<0.6) = 1-F(0.6)= 1-0.6^2=0.64\]

Matlabilla edellisen integraalin saa komennoilla

   syms x % luodaan symbolinen muuttuja x
   int(2*x, x, 0.6, 1) % määrätyn integraalina arvo

Jos halutaan määritellä ensin kertymäfunktio, sen saa komennolla

   F = int(2*t, t, 0, x)

ja sitten todennäköisyyden saa kertymäfunktion avulla

   1-F(0.6)

R:llä määrätyt integraalit saadaan määrittämällä ensin funktio ja laskemalla siitä määrätty integraali. Integrointi suoritetaan numeerisesti ja tuloksessa annetaan myös tulokseen sisältyvä maksimivirhe.

   f <- function(x){2*x}  # muodostetaan funktio f(x)
   integrate(f, 0.6, 1)  # todennäköisyys

Tämä jakauma \(f(x)=2x\)on esimerkki ns. kolmiojakaumasta (triangular distribution). Jos halutaan, että satunnaisen neliön pinta-ala \(X^2\) olisi tasajakautunut välillä \([0,1]\), niin silloin sivun pituuden \(X\) tiheysfunktion tulee olla \(f(x)=2x, \ x\in[0,1]\). Perustelut tälle esitetään seuraavan kappaleen Satunnaismuuttujan funktiot esimerkissä.

Erityisesti laitteiden komponenttien elinikään liittyy seuraava jatkuva todennäköisyysjakauma.

Määritelmä 2.2.9

Satunnaismuuttuja \(T\) noudattaa eksponenttijakaumaa (exponential distribution) parametrilla \(\lambda>0\), \(T\sim\Exp(\lambda)\), jos sen tiheysfunktio on

\[f(t)=\lambda e^{-\lambda t},\qquad\text{kun }t\geq0.\]

Eksponenttijakauman kertymäfunktioksi saadaan arvoilla \(t\geq0\)

\[F(t) = P(T\leq t)=\int_{-\infty}^tf(u)\,\rd u=\int_0^t\lambda e^{-\lambda u}\,\rd u = \sij{0}{t}\left(-e^{-\lambda u}\right) = 1-e^{-\lambda t}.\]

Esimerkki 2.2.10

Tietyn sähköisen komponentin elinajan \(T\) (vuosissa) tiedetään olevan eksponentiaalisesti jakautunut parametrinaan \(\lambda=2\). Todennäköisyys sille, että komponentti kestää vielä korkeintaan yhden vuoden, kun se on jo kestänyt kaksi vuotta, on ehdollinen todennäköisyys

\[\begin{split}\begin{array}{rcl} P(T<2+1\mid T>2) &= \frac{P(2<T<3)}{P(T>2)} = \frac{F(3)-F(2)}{1-F(2)}\\ &= \frac{(1-e^{-6})-(1-e^{-4})}{1-(1-e^{-4})} = \frac{e^{-4}(-e^{-2}+1)}{e^{-4}} \\ &= 1-e^{-2}=0.865 \end{array}\end{split}\]

Laskettaessa todennäköisyys \(P(T<1) = F(1) = 1 - e^{-2}\) saadaan sama tulos. Eli todennäköisyys, että komponentti kestää vielä yhden vuoden on sama uudella ja jo kaksi vuotta toimineella komponentilla! Tätä sovelluksissa tärkeää ilmiötä kutsutaan eksponenttijakauman unohtuvaisuusominaisuudeksi.

Eksponenttijakaumalle on myös vaihtoehtoinen merkintätapa. Siinä satunnaismuuttuja \(T\) noudattaa eksponenttijakaumaa parametrilla \(\lambda>0\), \(T\sim\Exp(\lambda)\), jos sen tiheysfunktio on

\[f(t)=\dfrac{1}{\lambda} e^{-t/\lambda},\qquad\text{kun }t\geq0.\]

Matlab käyttää juuri tätä merkintätapaa. Kun lasketaan tämän esimerkin todennäköisyyksiä, tulee parametri \(\lambda=2\) korvata käänteisluvullaan \(1/2\). Todennäköisyys

\[P(T<2+1\mid T>2) = \dfrac{P(2<T<3)}{P(T>2)}\]

saadaan komennolla

   (expcdf(3,1/2) - expcdf(2,1/2))/(1-expcdf(2,1/2))

Sen sijaan R:ssä on käytössä sama merkintätapa kuin tässä kurssimonisteessa. Tämä sama todennäköisyys saadaan R:n komennolla

   (pexp(3,2)-pexp(2,2))/(1-pexp(2,2))