Processing math: 0%
Tämä kurssi on jo päättynyt.
\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \renewcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bbf}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-10mu}\,#1}^{\,#2}} \newcommand{\qedhere}{}

Normaalijakauma

Jatkuvista jakaumista tärkein on tilastomatematiikan ytimessä oleva normaalijakauma, eli Gaussin jakauma (normal distribution, Gaussian distribution).

Määritelmä 4.4.1

Jatkuva satunnaismuuttuja X, jonka otosavaruus \Omega = \R, on normaalijakautunut reaaliparametrein \mu ja \sigma^2 > 0, X \sim \rN(\mu,\sigma^2), jos sen tiheysfunktio on

f(x) = n(x; \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x - \mu}{\sigma}\right)^2}.

Käyttämällä hyväksi epäoleellisten tasointegraalien teoriaa voidaan osoittaa, että todellakin

\int_{-\infty}^\infty n(x; \mu, \sigma)\,\rd x = \int_{-\infty}^{\infty}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x - \mu}{\sigma}\right)^2}\,\rd x = 1.

Tiheysfunktion n kuvaaja on symmetrinen suoran x = \mu suhteen.

../_images/kuva211normaalit.svg

Normaalijakaumaa \rN(0, 1) kutsutaan standardinormaalijakaumaksi, ja sillä on erityisen tärkeä asema normaalijakaumiin liittyvissä laskuissa. Muuttuja Z\sim\rN(0,1) on standardoidusti normaalijakautunut. Sen tiheysfunktio

\phi(z)=n(z; 0, 1)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}

ja kertymäfunktio

\Phi(z)=P(Z\leq z)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^z e^{-\frac{1}{2}t^2}\,\rd t.

Tiheysfunktio \phi on symmetrinen suoran x = 0 suhteen, ja tämän perusteella

\Phi(-z)= P(Z\leq -z) = P(Z\geq z) = 1-P(Z\leq z) = 1-\Phi(z).

Lause 4.4.2

Jos satunnaismuuttuja X\sim\rN(\mu,\sigma^2), niin momentit generoiva funktio M(t)=e^{\mu t+\frac{1}{2}\sigma^2t^2}, odotusarvo

\rE(X)=\mu

ja varianssi

\Var(X) = \sigma^2.
Näytä/piilota todistus

Tehdään momentit generoivan funktion määrittelevässä integraalissa sijoitus y = \frac{x - \mu}{\sigma} - t\sigma, jolloin \rd x = \sigma\rd y ja rajat pysyvät muuttumattomina. Täten

\begin{split}\begin{aligned} M(t) &= \rE(e^{tX}) = \int_{-\infty}^\infty e^{tx}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\,\rd x \\ &= \int_{-\infty}^\infty e^{t(\mu+t\sigma^2+\sigma y)}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(y+t\sigma)^2}\sigma\,\rd y \\ &= \int_{-\infty}^{\infty}e^{\mu t + t^2\sigma^2 - \frac{1}{2}t^2\sigma^2}\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}y^2 - t\sigma y + t\sigma y}\,\rd y \\ &= e^{\mu t+\frac{1}{2}t^2\sigma^2}\int_{-\infty}^\infty\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}y^2}\,\rd y = e^{\mu t+\frac{1}{2}t^2\sigma^2} \cdot 1 = e^{\mu t + \frac{1}{2}t^2\sigma^2}. \end{aligned}\end{split}

Momenttifunktion kaksi ensimmäistä derivaattaa ovat

M'(t) = e^{\mu t + \frac{1}{2}t^2\sigma^2}(\mu+\sigma^2t) = M(t)(\mu + \sigma^2 t) \qquad\text{ja}\qquad M''(t) = M'(t)(\mu+\sigma^2t) + M(t)\sigma^2,

joten \rE(X) = M'(0) = 1 \cdot \mu = \mu ja \Var(X) = M''(0) - M'(0)^2 = \mu^2 + 1 \cdot \sigma^2 - \mu^2 = \sigma^2.

Tarkastellaan seuraavassa normaalijakaumaa \rN(\mu, \sigma^2).

Mitkä seuraavista ilmiöistä havaitaan, kun jakauman odotusarvo \mu ja varianssi \sigma^2 kasvavat?

Hyödyntämällä satunnaismuuttujan X lineaariselle funktiolle Y = aX + b johdettua momentit generoivan funktion lauseketta saadaan seuraava keskeinen tulos ja sen välittömät seuraukset.

Lause 4.4.3

Jos X \sim \rN(\mu, \sigma^2), niin Y = aX + b \sim \rN(a\mu + b, a^2\sigma^2).

Näytä/piilota todistus

Satunnaismuuttujan X momentit generoiva funktio on M_X(t) = e^{\mu t + \frac{1}{2}t^2\sigma^2}. Lauseen 3.6.7 nojalla muuttujan Y momentit generoiva funktio on siis

M_Y(t) = e^{bt}M_X(at) = e^{bt}e^{\mu at + \frac{1}{2}\sigma^2(at)^2} = e^{(a\mu + b)t + \frac{1}{2}(a^2\sigma^2)t^2}.

Kyseessä on jakaumaan \rN(a\mu + b, a^2\sigma^2) liittyvä momenttifunktio, joten yksikäsitteisyysominaisuuden nojalla Y \sim \rN(a\mu + b, a^2\sigma^2).

Seuraus 4.4.4

Jos X \sim \rN(\mu, \sigma^2), niin Z = \dfrac{X - \mu}{\sigma} \sim \rN(0,1).

Seuraus 4.4.5

Jos X \sim \rN(\mu, \sigma^2), niin sen kertymäfunktio F(x) = \Phi\left(\dfrac{x - \mu}{\sigma}\right).

Normaalijakauman kertymäfunktion arvoja ei voi laskea suljetussa muodossa, vaan integraaleja on tyydyttävä arvioimaan numeerisesti. Valmisohjelmat, kuten Matlab ja R sallivat mielivaltaisen normaalijakautuneen satunnaismuuttujan kertymäfunktion ja sen käänteisfunktion arvojen laskemisen. Ennen tietokonelaskentaa hyödynnettiin viimeistä seurausta, jonka avulla minkä tahansa normaalijakautuneen muuttujan X \sim \rN(\mu, \sigma^2) kertymäfunktio voidaan palauttaa standardinormaalijakauman kertymäfunktioon \Phi. Funktion \Phi arvoja taulukoitiin, ja tämän avulla arvioitiin standardoidusti normaalijakautuneen muuttujan Z = \frac{X - \mu}{\sigma} arvoihin z liittyviä todennäköisyyksiä P(Z \leq z) = \Phi(z). Reaalilukuväliin [a, b] liittyvän tapahtuman todennäköisyydeksi voidaan täten kirjoittaa

P(a\leq X\leq b)= F(b)-F(a)=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right).

Esimerkki 4.4.6

Tutkimuksissa on selvitetty, että suomalaisten täysikasvuisten naisten pituus X senttimetreissä noudattaa jakaumaa \rN(165, 6{,}5^2). Laske todennäköisyys sille, että satunnaisesti valitun naisen pituus on

  1. tasan 165 senttimetrin tarkkuudella mitattuna,
  2. välillä (150, 170) senttimetrin tarkkuudella mitattuna.
  3. Mikä on se pituus c, jota pidempiä on 1~\% suomalaisista naisista?
Näytä/piilota ratkaisu

Standardoitu muuttuja Z = \frac{X - 165}{6{,}5} \sim \rN(0, 1).

  1. Mittaustulos x on senttimetrin tarkkuudella 165 silloin, kun 164{,}5 \leq x < 165{,}5. Kysytty todennäköisyys on siis

    \begin{split}\begin{aligned} P(164{,}5 \leq X < 165{,}5) &= P(164{,}5 \leq X \leq 165{,}5) \\ &= P\left(\frac{164{,}5 - 165}{6{,}5} \leq Z \leq \frac{165{,}5 - 165}{6{,}5}\right) \\ &\approx P(-0{,}0769 \leq Z \leq 0{,}0769) = \Phi(0{,}0769) - \Phi(-0{,}0769). \end{aligned}\end{split}

    Koska normaalijakauma on symmetrinen, \Phi(-z) = 1 - \Phi(z) kaikille reaaliluvuille z, ja täten taulukosta luetun arvon \Phi(0{,}0769) \approx \Phi(0{,}08) \approx 0{,}5319 avulla saadaan

    \Phi(0{,}0769) - \Phi(-0{,}0769) = \Phi(0{,}0769) - (1 - \Phi(0{,}0769)) = 2\Phi(0{,}0769) - 1 \approx 0{,}0638.

    Matlab tarjoaa tähän tarkoitukseen funktion normcdf, joka ottaa argumentteinaan järjestyksessä pisteen, jossa kertymäfunktion arvoa ollaan laskemassa, jakauman odotusarvon ja sen keskihajonnan. Sama tehtävä voitaisiin siis ratkaista Matlabilla komennoin

    probs = normcdf([164.5 165.5], 165, 6.5);
    probs(2) - probs(1)
    

    ja saada tarkemmaksi ratkaisuksi 0{,}0613. Vastaava R-funktio on pnorm, ja sama ratkaisu saataisiin komennolla

    pnorm(165.5, 165, 6.5) - pnorm(164.5, 165, 6.5)
    
  2. Tarkkuuden huomioon ottava todennäköisyys lasketaan kuten edellä. Kysytty todennäköisyys on

    \begin{split}\begin{aligned} P(149{,}5 \leq X < 170{,}5) &= P\left(\frac{149{,}5 - 165}{6{,}5} \leq Z \leq \frac{170{,}5 - 165}{6{,}5}\right) \\ &\approx P(-2{,}385 \leq Z \leq 0{,}8462) \\ &\approx \Phi(0{,}85) - \Phi(-2{,}39) = \Phi(0{,}85) + \Phi(2{,}39) - 1 \\ &\approx 0{,}8023 + 0{,}9916 - 1 = 0{,}7939. \end{aligned}\end{split}

    Matlabilla komentojen

    probs = normcdf([149.5 170.5], 165, 6.5);
    probs(2) - probs(1)
    

    avulla todennäköisyyden likiarvoksi saadaan 0{,}7927, ja samaan tulokseen päädytään R-komennolla

    pnorm(170.5, 165, 6.5) - pnorm(149.5, 165, 6.5)
    
  3. Etsitään siis sitä vakion c arvoa, jolla P(X > c) = 0{,}01, eli P(X \leq c) = 0{,}99. Tällöin standardoitu normaalimuuttuja Z toteuttaa ehdon

    P\left(Z \leq \frac{c - 165}{6{,}5}\right) = 0{,}99 \approx \Phi(2{,}33),

    missä yhteys \Phi(2{,}33) \approx 0{,}99 on päätelty etsimällä standardinormaalijakauman taulukosta lähimmäksi todennäköisyyttä 0{,}99 vievä muuttujan arvo. Koska kertymäfunktio \Phi on aidosti kasvava, on oltava

    \frac{c - 165}{6{,}5} \approx 2{,}33,

    eli c \approx 165 + 2{,}33 \cdot 6{,}5 = 180{,}145 \approx 180. Siis 1~\% suomalaisista täysikasvuisista naisista on pidempiä kuin 180cm. Tehtävä voidaan ratkaista myös tarkemmin Matlabin funktion norminv avulla. Funktiolle on annettava todennäköisyys P(X \leq c), sekä jakauman odotusarvo ja keskihajonta. Näin kysytyksi pituudeksi ratkaistaan komennolla

    norminv(1 - 0.01, 165, 6.5)
    

    likimain 180{,}1213 \approx 180 senttimetriä. R-ohjelmiston vastinetta qnorm käytetään samaan tapaan:

    qnorm(1 - 0.01, 165, 6.5)
    

    antaa saman tuloksen.

Huomautus 4.4.7

Normaalijakauman tärkeyttä on vaikea korostaa liikaa. Siihen palataan vielä keskeisen raja-arvolauseen yhteydessä, joka on tilastollisen hypoteesin testauksen perusta. Käy ilmi, että monen satunnaismuuttujan summa noudattaa likimain jotakin normaalijakaumaa riippumatta muuttujien omista jakaumista. Tämä sallii paitsi päätelmien tekemisen kyseisestä summasta, myös erilaisten todennäköisyysjakaumien approksimoimisen normaalijakaumalla.

Alla olevaan taulukkoon on kerätty tietoja tähän asti käsitellyistä todennäköisyysjakaumista ja niitä noudattavista satunnaismuuttujista, sekä niiden tiheysfunktioista.

../_images/jakaumia-yhdistystaulukko.svg

Täytä kukin taulukon riveistä seuraavista vaihtoehdoista. Anna kunkin rivin vastaus samannumeroiseen kysymykseen yhden tai kahden merkin pituisena merkkijonona, jossa merkit edustavat valitsemiesi vaihtoehtojen symboleita järjestyksessä vasemmalta oikealle.

  • a: jatkuva tasajakauma, \Tas(a, b)
  • b: f : \{0, 1\} \rightarrow \R, f(0) = 0{,}12, f(1) = 0{,}88
  • c: onnistumiseen tarvittavien riippumattomien toistojen lukumäärä
  • d: diskreetti tasajakauma, \Tasd(a, b)
  • e: normaalijakauma, \rN(\mu, \sigma^2)
  • f: f : [0, \infty) \rightarrow \R, f(x) = 3e^{-3x}
  • g: hypergeometrinen jakauma, \Hyperg(N, m, n)
  • h: satunnaiskokeen tulos, kun tulosvaihtoehtoja on kaksi
  • i: satunnaiskokeen tulos, kun kyseessä voi olla mikä tahansa arvo tunnetulla välillä
  • j: satunnaiskokeen tulos, kun kaikki tulosvaihtoehdot ovat yhtä todennäköisiä
  • k: vakiotahdilla suhteellisen harvoin ilmenevän tapahtuman realisoitumismäärä
  • l: binomijakauma, \Bin(n, p)
  • m: f : \{2, 3, 4, 5, 6\} \rightarrow \R, f(x) = \frac{\binom{9}{x}\binom{4}{6 - x}}{\binom{13}{6}}
  • n: f : [0, 17] \cap \Z \rightarrow \R, f(x) = \binom{17}{x} \cdot 0{,}49^{x} \cdot 0{,}51^{17 - x}
  • o: Poissonin jakauma, \Poi(\lambda)

Jos esimerkiksi olet sitä mieltä, että onnistumisten lukumäärä toistokokeessa liittyy jatkuvaan tasajakaumaan ja että esimerkki tämän tiheysfunktiosta on f : \{0, 1\} \rightarrow \R, f(0) = 0{,}12, f(1) = 0{,}88, niin vastaa ensimmäiseen laatikkoon ab.

Syötä tähän rivin 1 vastaus.
Syötä tähän rivin 2 vastaus.
Syötä tähän rivin 3 vastaus.
Syötä tähän rivin 4 vastaus.
Syötä tähän rivin 5 vastaus.
Syötä tähän rivin 6 vastaus.
Syötä tähän rivin 7 vastaus.
Syötä tähän rivin 8 vastaus.
Syötä tähän rivin 9 vastaus.
Palautusta lähetetään...