Loading [MathJax]/extensions/TeX/mathchoice.js

Normaalijakauma

Jatkuvista jakaumista tärkein on tilastomatematiikan ytimessä oleva normaalijakauma, eli Gaussin jakauma (normal distribution, Gaussian distribution).

Määritelmä 4.4.1

Jatkuva satunnaismuuttuja X, jonka otosavaruus Ω=R, on normaalijakautunut parametrein μ ja σ2>0, XN(μ,σ2), jos sen tiheysfunktio on

f(x)=n(x;μ,σ)=1σ2πe12(xμσ)2.

Tiheysfunktion n kuvaaja on symmetrinen suoran x=μ suhteen.

../_images/kuva211normaalit.svg

Normaalijakaumaa N(0,1) kutsutaan standardinormaalijakaumaksi, ja sillä on erityisen tärkeä asema normaalijakaumiin liittyvissä laskuissa. Muuttuja ZN(0,1) on standardoidusti normaalijakautunut. Sen tiheysfunktio

ϕ(z)=n(z;0,1)=12πe12z2

ja kertymäfunktio

Φ(z)=P(Zz)=12πze12t2dt.

Tiheysfunktio ϕ on symmetrinen suoran x=0 suhteen, ja tämän perusteella

Φ(z)=P(Zz)=P(Zz)=1P(Zz)=1Φ(z).

Lause 4.4.2

Jos satunnaismuuttuja XN(μ,σ2), niin odotusarvo

E(X)=μ

ja varianssi

Var(X)=σ2.

Todistus sivuutetaan. Odotusarvot E(X) ja E(X2) voidaan määrittää odotusarvon määritelmän avulla käyttäen sijoitusta ja osittaisintegrointia.

Tarkastellaan seuraavassa normaalijakaumaa N(μ,σ2).

Mitkä seuraavista ilmiöistä havaitaan, kun jakauman odotusarvo μ ja varianssi σ2 kasvavat?

Satunnaismuuttujan X lineaariselle funktiolle Y=aX+b tiedetään tulokset

E(aX+b)=aE(X)+b   ja   Var(aX+b)=a2Var(X)

Normaalijakaumalle saadaan seuraava keskeinen tulos, jossa edellisen lisäksi myös jakauma säilyy normaalijakaumana.

Lause 4.4.3

Jos XN(μ,σ2), niin Y=aX+bN(aμ+b,a2σ2).

Todistus sivuutetaan.

Seuraus 4.4.4

Jos XN(μ,σ2), niin

Z=XμσN(0,1)

ja sen kertymäfunktio

F(x)=Φ(xμσ)

missä Φ(z) on standardinormaalijakauman N(0,1) kertymäfunktio.

Normaalijakauman kertymäfunktion arvoja ei voi laskea suljetussa muodossa, vaan integraaleja on tyydyttävä arvioimaan numeerisesti. Matlab ja R laskevat mielivaltaisen normaalijakautuneen satunnaismuuttujan kertymäfunktion ja sen käänteisfunktion arvoja. Ilman ohjelmia lasketteaessa hyödynnetään viimeistä seurausta, jonka avulla minkä tahansa normaalijakautuneen muuttujan XN(μ,σ2) kertymäfunktio voidaan palauttaa standardinormaalijakauman kertymäfunktioon Φ ja käytetään funktion Φ taulukoituja arvoja (liitteenä). Reaalilukuväliin [a,b] liittyvän tapahtuman todennäköisyydeksi voidaan täten kirjoittaa

P(aXb)=F(b)F(a)=Φ(bμσ)Φ(aμσ).

Esimerkki 4.4.5

Tutkimuksissa on selvitetty, että suomalaisten täysikasvuisten naisten pituus X senttimetreissä noudattaa jakaumaa N(165,6.52). Laske todennäköisyys sille, että satunnaisesti valitun naisen pituus on

  1. tasan 165 senttimetrin tarkkuudella mitattuna,
  2. välillä (150,170) senttimetrin tarkkuudella mitattuna.
  3. Mikä on se pituus c, jota pidempiä on 1 % suomalaisista naisista?

Standardoitu muuttuja Z=X1656.5N(0,1).

  1. Mittaustulos x on senttimetrin tarkkuudella 165 silloin, kun 164.5x<165.5. Kysytty todennäköisyys on siis

    P(164.5X<165.5)=P(164.5X165.5)=P(164.51656.5Z165.51656.5)P(0.077Z0.077)=Φ(0.077)Φ(0.077).

    Koska normaalijakauma on symmetrinen, Φ(z)=1Φ(z) kaikille reaaliluvuille z, ja täten taulukosta luetun arvon Φ(0.077)Φ(0.08)0.5319 avulla saadaan

    Φ(0.077)Φ(0.077)=Φ(0.077)(1Φ(0.077))=2Φ(0.077)10.0638.

    Kurssimateriaalissa käytetään normaalijakauman parametreina odotusarvoa ja varianssia. Toinen käytetty normaalijakauman merkitsemistapa on käyttää varianssin σ2 sijaan keskihajontaa σ. Mm. Matlab ja R käyttävät parametrina keskihajontaa. Matlabissa normaalijakauman kertymäfunktio on normcdf ja tehtävä voitaisiin siis ratkaista

       normcdf(165.5, 165, 6.5) - normcdf(164.5, 165, 6.5)

    ja saada tarkemmaksi ratkaisuksi 0.0613. Vastaava R-funktio on pnorm, ja sama ratkaisu saataisiin komennolla

       pnorm(165.5, 165, 6.5) - pnorm(164.5, 165, 6.5)
  2. Tarkkuuden huomioon ottava todennäköisyys lasketaan kuten edellä. Kysytty todennäköisyys on

    P(149.5X<170.5)=P(149.51656.5Z170.51656.5)P(2.385Z0.846)Φ(0.85)Φ(2.39)=Φ(0.85)+Φ(2.39)10.8023+0.99161=0.7939.

    Matlabilla ja R:llä saadaan tulokseksi 0.7927:

       normcdf(170.5, 165, 6.5) - normcdf(149.5, 165, 6.5) % Matlab
       pnorm(170.5, 165, 6.5) - pnorm(149.5, 165, 6.5) # R
  3. Etsitään siis sitä vakion c arvoa, jolla P(X>c)=0.01, eli P(Xc)=0.99. Tällöin standardoitu normaalimuuttuja Z toteuttaa ehdon

    P(Zc1656.5)=Φ(c1656.5)=0.99Φ(2.33),

    missä Φ(2.33)0.99 on päätelty etsimällä standardinormaalijakauman taulukosta lähimpänä todennäköisyyttä 0.99 oleva muuttujan arvo. Koska kertymäfunktio Φ on aidosti kasvava, on oltava

    c1656.52.33,

    eli c165+2.336.5=180.145180. Siis 1 % suomalaisista täysikasvuisista naisista on pidempiä kuin 180cm.

    Matlabilla tehtävä ratkaistaan kertymäfunktion käänteisfunktion norminv avulla. Funktiolle on annettava todennäköisyys P(Xc), sekä jakauman odotusarvo ja keskihajonta. Näin kysytyksi pituudeksi ratkaistaan komennolla

       norminv(1 - 0.01, 165, 6.5)

    likimain 180.1213180 senttimetriä. R-ohjelmiston vastinetta qnorm käytettäessä saadaan sama tulos:

       qnorm(1 - 0.01, 165, 6.5)

Normaalijakauman lineaarimuunnos on siis myös normaalijakautunut. Lisäksi riippumattomien normaalijakautuneiden satunnaismuuttujien summa on normaalijakautunut. Todistamatta esitetään seuraava tulos.

Lause 4.4.6

Jos satunnaismuuttujat XiN(μi,σ2i), i=1,2,,n ovat riippumattomia ja kertoimet a1,a2,,anR, niin muuttujien lineaarikombinaatio

Y=a1X1+a2X2++anXnN(μY,σ2Y),

missä

μY=a1μ1+a2μ2++anμnjaσ2Y=a21σ21+a22σ22++a2nσ2n.

Esimerkki 4.4.7

a) Pakkauksen painoksi on ilmoitettu 100 g. Punnituksissa on painon X jakaumaksi todettu N(102, 1). Alle 100 g:n painoiset pakkaukset hylätään jo tuotannossa. Kuinka monta prosenttia pakkauksista hylätään?

b) Hävikin pienentämiseksi kaksi a)-kohdan pakkausta yhdistetään tuplapakkaukseksi, jonka painoksi ilmoitetaan 200 g. Kuinka monta prosenttia tuplapakkauksista hylätään eli mikä osuus näistä pakkauksista on alle 200 g painoisia? Eri pakkausten painot oletetaan riippumattomiksi.

a) Kysytty todennäköisyys on

P(X<100)=P(X1021<1001021)=Φ(2.00)=1Φ(2.00)=10.9772=0.0228=2.3%

Matlabilla ja R:llä saadaan sama tulos saadaan komennoilla

   normcdf(100, 102, 1 ) % Matlab
   pnorm(100, 102, 1)  # R

b) Merkitään pakkauksen 1 painoa X1:llä ja pakkauksen 2 painoa X2:lla. Tuplapakkauksen paino on X=X1+X2 ja X noudattaa normaalijakaumaa. Odotusarvo ja riippumattomien satunnaismuuttujien varianssi lasketaan kaavoilla

E(X1+X2)=E(X1)+E(X2),Var(aX1+bX2)=a2Var(X1)+b2Var(X2)

Näin

E(X)=E(X1)+E(X2)=102+102=204
Var(X)=12Var(X1)+12Var(X2)=1+1=2

eli

XN(204, 2)

Nyt

P(X<200)=P(X2042<2002042)=Φ(2.83)=1Φ(2.83)=10.9977=0.0023=0.23%

Matlabilla ja R:llä sama tulos saadaan komennoilla

   nnormcdf(200, 204, sqrt(2) ) % Matlab
   pnorm(200, 204, sqrt(2) )  # R

Tuplapakkausten hävikki on vain 10% yksittäispakkausten hävikistä.

Huomautus 4.4.8

Normaalijakauman tärkeyttä on vaikea korostaa liikaa. Siihen palataan vielä keskeisen raja-arvolauseen yhteydessä, joka on usean tilastollisen hypoteesin testauksen perusta. Käy ilmi, että monen satunnaismuuttujan summa noudattaa likimain jotakin normaalijakaumaa riippumatta muuttujien omista jakaumista. Tämä sallii paitsi päätelmien tekemisen kyseisestä summasta, myös erilaisten todennäköisyysjakaumien approksimoimisen normaalijakaumalla.

Alla olevaan taulukkoon on kerätty tietoja tähän asti käsitellyistä todennäköisyysjakaumista ja niitä noudattavista satunnaismuuttujista, sekä niiden tiheysfunktioista.

../_images/jakaumia-yhdistystaulukkov2.svg

Täytä kukin taulukon riveistä seuraavista vaihtoehdoista. Anna kunkin rivin vastaus samannumeroiseen kysymykseen yhden tai kahden merkin pituisena merkkijonona, jossa merkit edustavat valitsemiesi vaihtoehtojen symboleita järjestyksessä vasemmalta oikealle.

  • a: jatkuva tasajakauma, Tas(a,b)
  • b: f:{0,1}R, f(0)=0,12, f(1)=0,88
  • c: onnistumiseen tarvittavien riippumattomien toistojen lukumäärä
  • d: diskreetti tasajakauma, Tasd(a,b)
  • e: normaalijakauma, N(μ,σ2)
  • f: f:[0,)R, f(x)=3e3x
  • g: hypergeometrinen jakauma, Hyperg(N,m,n)
  • h: satunnaiskokeen tulos, kun tulosvaihtoehtoja on kaksi
  • i: satunnaiskokeen tulos, kun kyseessä voi olla mikä tahansa arvo tunnetulla välillä
  • j: satunnaiskokeen tulos, kun kaikki tulosvaihtoehdot ovat yhtä todennäköisiä
  • k: vakiotahdilla suhteellisen harvoin ilmenevän tapahtuman realisoitumismäärä
  • l: binomijakauma, Bin(n,p)
  • m: f:{2,3,4,5,6}R, f(x) = \frac{\binom{9}{x}\binom{4}{6 - x}}{\binom{13}{6}}
  • n: f : [0, 17] \cap \Z \rightarrow \R, f(x) = \binom{17}{x} \cdot 0{,}49^{x} \cdot 0{,}51^{17 - x}
  • o: Poissonin jakauma, \Poi(\lambda)

Jos esimerkiksi olet sitä mieltä, että onnistumisten lukumäärä toistokokeessa liittyy jatkuvaan tasajakaumaan ja että esimerkki tämän tiheysfunktiosta on f : \{0, 1\} \rightarrow \R, f(0) = 0{,}12, f(1) = 0{,}88, niin vastaa ensimmäiseen laatikkoon ab.

Syötä tähän rivin 1 vastaus.
Syötä tähän rivin 2 vastaus.
Syötä tähän rivin 3 vastaus.
Syötä tähän rivin 4 vastaus.
Syötä tähän rivin 5 vastaus.
Syötä tähän rivin 6 vastaus.
Syötä tähän rivin 7 vastaus.
Syötä tähän rivin 8 vastaus.
Syötä tähän rivin 9 vastaus.
Palautusta lähetetään...