$\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \renewcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bbf}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-10mu}\,#1}^{\,#2}} \newcommand{\qedhere}{}$

Normaalijakauma¶

Jatkuvista jakaumista tärkein on tilastomatematiikan ytimessä oleva normaalijakauma, eli Gaussin jakauma (normal distribution, Gaussian distribution).

Määritelmä 4.4.1

Jatkuva satunnaismuuttuja $X$ , jonka otosavaruus $\Omega = \R$ , on normaalijakautunut reaaliparametrein $\mu$ ja $\sigma^2 > 0$ , $X \sim \rN(\mu,\sigma^2)$ , jos sen tiheysfunktio on

$f(x) = n(x; \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x - \mu}{\sigma}\right)^2}.$

Käyttämällä hyväksi epäoleellisten tasointegraalien teoriaa voidaan osoittaa, että todellakin

$\int_{-\infty}^\infty n(x; \mu, \sigma)\,\rd x = \int_{-\infty}^{\infty}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x - \mu}{\sigma}\right)^2}\,\rd x = 1.$

Tiheysfunktion $n$ kuvaaja on symmetrinen suoran $x = \mu$ suhteen.

Normaalijakaumaa $\rN(0, 1)$ kutsutaan standardinormaalijakaumaksi, ja sillä on erityisen tärkeä asema normaalijakaumiin liittyvissä laskuissa. Muuttuja $Z\sim\rN(0,1)$ on standardoidusti normaalijakautunut. Sen tiheysfunktio

$\phi(z)=n(z; 0, 1)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}$

ja kertymäfunktio

$\Phi(z)=P(Z\leq z)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^z e^{-\frac{1}{2}t^2}\,\rd t.$

Tiheysfunktio $\phi$ on symmetrinen suoran $x = 0$ suhteen, ja tämän perusteella

$\Phi(-z)= P(Z\leq -z) = P(Z\geq z) = 1-P(Z\leq z) = 1-\Phi(z).$

Lause 4.4.2

Jos satunnaismuuttuja $X\sim\rN(\mu,\sigma^2)$ , niin momentit generoiva funktio $M(t)=e^{\mu t+\frac{1}{2}\sigma^2t^2}$ , odotusarvo

$\rE(X)=\mu$

ja varianssi

$\Var(X) = \sigma^2.$

Näytä/piilota todistus

Tehdään momentit generoivan funktion määrittelevässä integraalissa sijoitus $y = \frac{x - \mu}{\sigma} - t\sigma$ , jolloin $\rd x = \sigma\rd y$ ja rajat pysyvät muuttumattomina. Täten

$\begin{split}\begin{aligned} M(t) &= \rE(e^{tX}) = \int_{-\infty}^\infty e^{tx}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\,\rd x \\ &= \int_{-\infty}^\infty e^{t(\mu+t\sigma^2+\sigma y)}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(y+t\sigma)^2}\sigma\,\rd y \\ &= \int_{-\infty}^{\infty}e^{\mu t + t^2\sigma^2 - \frac{1}{2}t^2\sigma^2}\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}y^2 - t\sigma y + t\sigma y}\,\rd y \\ &= e^{\mu t+\frac{1}{2}t^2\sigma^2}\int_{-\infty}^\infty\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}y^2}\,\rd y = e^{\mu t+\frac{1}{2}t^2\sigma^2} \cdot 1 = e^{\mu t + \frac{1}{2}t^2\sigma^2}. \end{aligned}\end{split}$

Momenttifunktion kaksi ensimmäistä derivaattaa ovat

$M'(t) = e^{\mu t + \frac{1}{2}t^2\sigma^2}(\mu+\sigma^2t) = M(t)(\mu + \sigma^2 t) \qquad\text{ja}\qquad M''(t) = M'(t)(\mu+\sigma^2t) + M(t)\sigma^2,$

joten $\rE(X) = M'(0) = 1 \cdot \mu = \mu$ ja $\Var(X) = M''(0) - M'(0)^2 = \mu^2 + 1 \cdot \sigma^2 - \mu^2 = \sigma^2$ .

Hyödyntämällä satunnaismuuttujan $X$ lineaariselle funktiolle $Y = aX + b$ johdettua momentit generoivan funktion lauseketta saadaan seuraava keskeinen tulos ja sen välittömät seuraukset.

Lause 4.4.3

Jos $X \sim \rN(\mu, \sigma^2)$ , niin $Y = aX + b \sim \rN(a\mu + b, a^2\sigma^2)$ .

Näytä/piilota todistus

Satunnaismuuttujan $X$ momentit generoiva funktio on $M_X(t) = e^{\mu t + \frac{1}{2}t^2\sigma^2}$ . Lauseen 3.6.7 nojalla muuttujan $Y$ momentit generoiva funktio on siis

$M_Y(t) = e^{bt}M_X(at) = e^{bt}e^{\mu at + \frac{1}{2}\sigma^2(at)^2} = e^{(a\mu + b)t + \frac{1}{2}(a^2\sigma^2)t^2}.$

Kyseessä on jakaumaan $\rN(a\mu + b, a^2\sigma^2)$ liittyvä momenttifunktio, joten yksikäsitteisyysominaisuuden nojalla $Y \sim \rN(a\mu + b, a^2\sigma^2)$ .

Seuraus 4.4.4

Jos $X \sim \rN(\mu, \sigma^2)$ , niin $Z = \dfrac{X - \mu}{\sigma} \sim \rN(0,1)$ .

Seuraus 4.4.5

Jos $X \sim \rN(\mu, \sigma^2)$ , niin sen kertymäfunktio $F(x) = \Phi\left(\dfrac{x - \mu}{\sigma}\right)$ .

Normaalijakauman kertymäfunktion arvoja ei voi laskea suljetussa muodossa, vaan integraaleja on tyydyttävä arvioimaan numeerisesti. Valmisohjelmat, kuten Matlab ja R sallivat mielivaltaisen normaalijakautuneen satunnaismuuttujan kertymäfunktion ja sen käänteisfunktion arvojen laskemisen. Ennen tietokonelaskentaa hyödynnettiin viimeistä seurausta, jonka avulla minkä tahansa normaalijakautuneen muuttujan $X \sim \rN(\mu, \sigma^2)$ kertymäfunktio voidaan palauttaa standardinormaalijakauman kertymäfunktioon $\Phi$ . Funktion $\Phi$ arvoja taulukoitiin, ja tämän avulla arvioitiin standardoidusti normaalijakautuneen muuttujan $Z = \frac{X - \mu}{\sigma}$ arvoihin $z$ liittyviä todennäköisyyksiä $P(Z \leq z) = \Phi(z)$ . Reaalilukuväliin $[a, b]$ liittyvän tapahtuman todennäköisyydeksi voidaan täten kirjoittaa

$P(a\leq X\leq b)= F(b)-F(a)=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right).$

Esimerkki 4.4.6

Tutkimuksissa on selvitetty, että suomalaisten täysikasvuisten naisten pituus $X$ senttimetreissä noudattaa jakaumaa $\rN(165, 6{,}5^2)$ . Laske todennäköisyys sille, että satunnaisesti valitun naisen pituus on

tasan $165$ senttimetrin tarkkuudella mitattuna,
välillä $(150, 170)$ senttimetrin tarkkuudella mitattuna.
Mikä on se pituus $c$ , jota pidempiä on $1~\%$ suomalaisista naisista?

Näytä/piilota ratkaisu

Standardoitu muuttuja $Z = \frac{X - 165}{6{,}5} \sim \rN(0, 1)$ .

Mittaustulos $x$ on senttimetrin tarkkuudella $165$ silloin, kun $164{,}5 \leq x < 165{,}5$ . Kysytty todennäköisyys on siis

$\begin{split}\begin{aligned} P(164{,}5 \leq X < 165{,}5) &= P(164{,}5 \leq X \leq 165{,}5) \\ &= P\left(\frac{164{,}5 - 165}{6{,}5} \leq Z \leq \frac{165{,}5 - 165}{6{,}5}\right) \\ &\approx P(-0{,}0769 \leq Z \leq 0{,}0769) = \Phi(0{,}0769) - \Phi(-0{,}0769). \end{aligned}\end{split}$

Koska normaalijakauma on symmetrinen, $\Phi(-z) = 1 - \Phi(z)$ kaikille reaaliluvuille $z$ , ja täten taulukosta luetun arvon $\Phi(0{,}0769) \approx \Phi(0{,}08) \approx 0{,}5319$ avulla saadaan

$\Phi(0{,}0769) - \Phi(-0{,}0769) = \Phi(0{,}0769) - (1 - \Phi(0{,}0769)) = 2\Phi(0{,}0769) - 1 \approx 0{,}0638.$

Matlab tarjoaa tähän tarkoitukseen funktion normcdf, joka ottaa argumentteinaan järjestyksessä pisteen, jossa kertymäfunktion arvoa ollaan laskemassa, jakauman odotusarvon ja sen keskihajonnan. Sama tehtävä voitaisiin siis ratkaista Matlabilla komennoin
```
probs = normcdf([164.5 165.5], 165, 6.5);
probs(2) - probs(1)
```
ja saada tarkemmaksi ratkaisuksi $0{,}0613$ . Vastaava R-funktio on pnorm, ja sama ratkaisu saataisiin komennolla
```
pnorm(165.5, 165, 6.5) - pnorm(164.5, 165, 6.5)
```
Tarkkuuden huomioon ottava todennäköisyys lasketaan kuten edellä. Kysytty todennäköisyys on

$\begin{split}\begin{aligned} P(149{,}5 \leq X < 170{,}5) &= P\left(\frac{149{,}5 - 165}{6{,}5} \leq Z \leq \frac{170{,}5 - 165}{6{,}5}\right) \\ &\approx P(-2{,}385 \leq Z \leq 0{,}8462) \\ &\approx \Phi(0{,}85) - \Phi(-2{,}39) = \Phi(0{,}85) + \Phi(2{,}39) - 1 \\ &\approx 0{,}8023 + 0{,}9916 - 1 = 0{,}7939. \end{aligned}\end{split}$

Matlabilla komentojen
```
probs = normcdf([149.5 170.5], 165, 6.5);
probs(2) - probs(1)
```
avulla todennäköisyyden likiarvoksi saadaan $0{,}7927$ , ja samaan tulokseen päädytään R-komennolla
```
pnorm(170.5, 165, 6.5) - pnorm(149.5, 165, 6.5)
```
Etsitään siis sitä vakion $c$ arvoa, jolla $P(X > c) = 0{,}01$ , eli $P(X \leq c) = 0{,}99$ . Tällöin standardoitu normaalimuuttuja $Z$ toteuttaa ehdon

$P\left(Z \leq \frac{c - 165}{6{,}5}\right) = 0{,}99 \approx \Phi(2{,}33),$

missä yhteys $\Phi(2{,}33) \approx 0{,}99$ on päätelty etsimällä standardinormaalijakauman taulukosta lähimmäksi todennäköisyyttä $0{,}99$ vievä muuttujan arvo. Koska kertymäfunktio $\Phi$ on aidosti kasvava, on oltava

$\frac{c - 165}{6{,}5} \approx 2{,}33,$

eli $c \approx 165 + 2{,}33 \cdot 6{,}5 = 180{,}145 \approx 180$ . Siis $1~\%$ suomalaisista täysikasvuisista naisista on pidempiä kuin $180$ cm. Tehtävä voidaan ratkaista myös tarkemmin Matlabin funktion norminv avulla. Funktiolle on annettava todennäköisyys $P(X \leq c)$ , sekä jakauman odotusarvo ja keskihajonta. Näin kysytyksi pituudeksi ratkaistaan komennolla
```
norminv(1 - 0.01, 165, 6.5)
```
likimain $180{,}1213 \approx 180$ senttimetriä. R-ohjelmiston vastinetta qnorm käytetään samaan tapaan:
```
qnorm(1 - 0.01, 165, 6.5)
```
antaa saman tuloksen.

Huomautus 4.4.7

Normaalijakauman tärkeyttä on vaikea korostaa liikaa. Siihen palataan vielä keskeisen raja-arvolauseen yhteydessä, joka on tilastollisen hypoteesin testauksen perusta. Käy ilmi, että monen satunnaismuuttujan summa noudattaa likimain jotakin normaalijakaumaa riippumatta muuttujien omista jakaumista. Tämä sallii paitsi päätelmien tekemisen kyseisestä summasta, myös erilaisten todennäköisyysjakaumien approksimoimisen normaalijakaumalla.

Alla olevaan taulukkoon on kerätty tietoja tähän asti käsitellyistä todennäköisyysjakaumista ja niitä noudattavista satunnaismuuttujista, sekä niiden tiheysfunktioista.

../_images/jakaumia-yhdistystaulukko.svg

Täytä kukin taulukon riveistä seuraavista vaihtoehdoista. Anna kunkin rivin vastaus samannumeroiseen kysymykseen yhden tai kahden merkin pituisena merkkijonona, jossa merkit edustavat valitsemiesi vaihtoehtojen symboleita järjestyksessä vasemmalta oikealle.

a: jatkuva tasajakauma, $\Tas(a, b)$
b: $f : \{0, 1\} \rightarrow \R$ , $f(0) = 0{,}12$ , $f(1) = 0{,}88$
c: onnistumiseen tarvittavien riippumattomien toistojen lukumäärä
d: diskreetti tasajakauma, $\Tasd(a, b)$
e: normaalijakauma, $\rN(\mu, \sigma^2)$
f: $f : [0, \infty) \rightarrow \R$ , $f(x) = 3e^{-3x}$
g: hypergeometrinen jakauma, $\Hyperg(N, m, n)$
h: satunnaiskokeen tulos, kun tulosvaihtoehtoja on kaksi
i: satunnaiskokeen tulos, kun kyseessä voi olla mikä tahansa arvo tunnetulla välillä
j: satunnaiskokeen tulos, kun kaikki tulosvaihtoehdot ovat yhtä todennäköisiä
k: vakiotahdilla suhteellisen harvoin ilmenevän tapahtuman realisoitumismäärä
l: binomijakauma, $\Bin(n, p)$
m: $f : \{2, 3, 4, 5, 6\} \rightarrow \R$ , $f(x) = \frac{\binom{9}{x}\binom{4}{6 - x}}{\binom{13}{6}}$
n: $f : [0, 17] \cap \Z \rightarrow \R$ , $f(x) = \binom{17}{x} \cdot 0{,}49^{x} \cdot 0{,}51^{17 - x}$
o: Poissonin jakauma, $\Poi(\lambda)$

Jos esimerkiksi olet sitä mieltä, että onnistumisten lukumäärä toistokokeessa liittyy jatkuvaan tasajakaumaan ja että esimerkki tämän tiheysfunktiosta on $f : \{0, 1\} \rightarrow \R$ , $f(0) = 0{,}12$ , $f(1) = 0{,}88$ , niin vastaa ensimmäiseen laatikkoon ab.

Question 1

Syötä tähän rivin 1 vastaus.

Question 2

Syötä tähän rivin 2 vastaus.

Question 3

Syötä tähän rivin 3 vastaus.

Question 4

Syötä tähän rivin 4 vastaus.

Question 5

Syötä tähän rivin 5 vastaus.

Question 6

Syötä tähän rivin 6 vastaus.

Question 7

Syötä tähän rivin 7 vastaus.

Question 8

Syötä tähän rivin 8 vastaus.

Question 9

Syötä tähän rivin 9 vastaus.