- MAT-01530
- 6. Otosjakaumat ja estimointi
- 6.4 Luottamusvälit
Luottamusvälit¶
Edellä käsitellyt otoksen X_1, X_2, \ldots, X_n perusteella määritellyt otoskeskiarvo \overline{X} ja otosvarianssi S^2 ovat satunnaismuuttujansa odotusarvon \mu ja varianssin \sigma^2 estimaattoreita. Ne ovat satunnaismuuttujia, joille realisoituu jokin arvo, kun otosmuuttujille mitataan arvot x_1, x_2, \ldots, x_n, ja tätä arvoa kutsutaan odotusarvon tai varianssin piste-estimaatiksi. Sekä otoskeskiarvo että otosvarianssi ovat parametrinsa harhattomia (unbiased) estimaattoreita, eli niille realisoituvat arvot eivät systemaattisesti poikkea estimoitavan parametrin arvosta.
Estimaattoreiden ja estimaattien laskemista otoksen perusteella kutsutaan estimoinniksi. Tarkoituksena on saada arvioiduksi jokin populaatioon liittyvä numeerinen arvo eli parametri \theta mitattua otosta käyttämällä. Piste-estimointi antaa vastaukseksi yhden arvon, josta ei voi päätellä mitään estimaatin tarkkuudesta. Tyypillisempi estimoinnin muoto onkin luottamusväliestimointi, jossa otoksen perusteella lasketaan reaalilukuväli, jolla oikean parametrin \theta arvon luotetaan olevan.
Määritelmä 6.4.1
Satunnaismuuttujan X parametrin \theta 100(1-\alpha)~\%:n väliestimaattori on satunnaisväli [\hat{\theta_1},\hat{\theta_2}], missä \hat{\theta}_1=\hat{\theta}_1(X_1,X_2,\ldots,X_n) ja \hat{\theta}_2=\hat{\theta}_2(X_1,X_2,\ldots,X_n) ovat sellaisia satunnaismuuttujan X otoksesta X_1,X_2,\ldots,X_n riippuvia välin päätepisteitä, että
Realisoitunutta väliä [\theta_1,\theta_2] sanotaan silloin parametrin \theta 100(1-\alpha)~\%:n luottamusväliksi (confidence interval). Luku 1-\alpha on välin luottamusaste (degree of confidence) ja päätepisteet ovat välin ylempi ja alempi luottamusraja.
Huomautus 6.4.2
Nopeasti ajateltuna luottamusvälin käsite voi kuulostaa siltä, että kyseessä on reaalilukuväli, jolle parametrin \theta todellinen arvo kuuluu todennäköisyydellä 1 - \alpha. Tämä on kuitenkin väärä tulkinta. Kun otos on valittu, niin saadaan yksi luottamusväli, jonka päätepisteet ovat kiinteät reaaliluvut. Koska parametri \theta on myös tietty reaaliluku (vaikkakin tavallisesti tuntematon), parametri \theta joko sisältyy luottamusväliin tai sitten ei.
Parametriin \theta liittyvä väliestimaattori [\hat{\theta}_1, \hat{\theta}_2] muodostuu oikeastaan satunnaismuuttujista \hat{\theta}_1 ja \hat{\theta}_2, joille realisoituu otoksen valinnasta riippuen erilaisia arvoja. Jos otoksia kerättäisiin hyvin monta kappaletta, niin niiden perusteella lasketuista luottamusväleistä 100(1 - \alpha)~\% sisältää parametrin \theta todellisen arvon.
Mitä suurempaa luottamusastetta vaaditaan, sitä leveämmäksi luottamusväli tulee. Lisäksi väliestimaattorin määritelmä ei vielä kerro, mikä ehdon P(\hat{\theta}_1 \leq \theta \leq \hat{\theta}_2) = 1-\alpha toteuttavista väleistä tulisi valita. Useimmiten vaaditaan, että väli on todennäköisyyden sijoittumisen suhteen symmetrinen, eli
Usein käytettyjä luottamustasoja ovat 90~\%, 95~\% ja 99~\%, joita vastaavat niin sanotut riskitasot \alpha = 0{,}1, \alpha = 0{,}05 ja \alpha = 0{,}01. Väliestimoinnin toteuttaminen perustuu siihen, löydetään estimoitavaan parametriin liittyvä otossuure (satunnaismuuttuja), jonka jakauma tunnetaan. Seuraavissa luvuissa kuvaillaan tyypillisimpiin jakaumien parametreihin liittyvien luottamusväliestimaattien muodostamista.