- MATH.APP.210
- 5. Otosjakaumat ja estimointi
- 5.7 Suhteellisen osuuden luottamusväli
Suhteellisen osuuden luottamusväli¶
Oletetaan, että X∼Bin(n,p), missä p on onnistumisen todennäköisyys n-toistokokeen yksittäisessä toistossa. Todennäköisyyden frekvenssitulkinnassa p on myös onnistumisten suhteellinen frekvenssi, eli niiden suhteellinen osuus kaikista toistoista. Satunnaismuuttuja X voidaan tulkita Bernoullin jakaumaa Ber(p)=Bin(1,p) noudattavien satunnaismuuttujien Y1,Y2,…,Yn summana X=Y1+Y2+⋯+Yn, ja tällöin satunnaismuuttujat Y1,Y2,…,Yn muodostavat otoksen satunnaismuuttujasta Y∼Bin(1,p).
Monesti satunnaismuuttujan Y jakauman parametri p on tuntematon, jolloin sitä on estimoitava. Sekä binomijakauman ja otoskeskiarvon odotusarvo tunnetaan, jolloin
missä
Satunnaismuuttuja ˆP=1nX on siis suhteellisen osuuden p harhaton estimaattori. Tässä binomijakaumaa noudattava X kuvaa onnistumisien frekvenssiä n-toistokokeessa, joten ˆP edustaa niiden suhteellista frekvenssiä. Muuttujan ˆP varianssi
ja koska ˆP=¯Y, niin keskeisen raja-arvolauseen nojalla
kun otoskoko n on riittävän suuri.
Valitaan luottamustasoksi 1−α. Edellisen perusteella päätellään, että standardoitu suhteellinen osuus
jolloin löydetään luku zα/2, jolle P(Z>zα/2)=α2. Normaalijakauman symmetrisyyden vuoksi myös P(Z<−zα/2)=α2, ja täten
Toisin kuin odotusarvon ja varianssin tapauksissa, suhteellista osuutta p ei voida täsmällisesti rajata vain estimaattorista ˆP riippuvien päätepisteiden väliin. Menetellään sen sijaan seuraavasti. Juuri johdetusta seuraa, että
Kun n on suuri, suhteellisen osuuden p harhattoman estimaattorin ˆP varianssi on niin pieni, että sille realisoituvat arvot ovat tyypillisesti hyvin lähellä parametrin p todellista arvoa. Siksi korvataan p neliöjuurilausekkeessa sen estimaattorilla ˆP ja todetaan, että
Lause 5.7.1
Oletetaan, että X∼Bin(n,p). Parametrin p 100(1−α) %:n väliestimaattori on likimain
missä Φ(zα/2)=1−α2. Jos suhteelliselle osuudelle ˆP realisoituu arvo ˆp, niin parametrin p 100(1−α) %:n luottamusväli on likimain
Esimerkki 5.7.2
Tietyllä reitillä 124 yhteensä 140 viikottaisesta lennosta sujui ilman ongelmia (myöhästymisiä, huonoa säätä, laiterikkoja). Laske 99 %:n luottamusväli todennäköisyydelle, jolla satunnaisesti valittu lento onnistuu ilman mainittuja vaikeuksia.
Olkoon p todennäköisyys sille, että satunnaisesti valittu lento onnistuu, jolloin havaintoaineistossa ongelmattomien lentojen lukumäärä X∼Bin(140,p). Piste-estimaatti parametrille p saadaan laskettua ongelmattomien lentojen suhteellisena frekvenssinä
Luottamustasoa 99 % vastaa α=0.01. Likimääräisen luottamusvälin kaavassa
esiintyvä luku zα/2≈2.5758 saadaan taulukosta tai esimerkiksi Matlab- ja R-komennoilla norminv(1 - 0.01/2)
ja qnorm(1 - 0.01/2)
. Näin onnistuneen lennon todennäköisyyden 99 %:n luottamusväli on likimain
Matlabilla tämän esimerkin laskut saa laskemalla kaavassa esiintyvät arvot
ph = 124/140 % p:n estimaatti ph+norminv([0.005, 0.995])*sqrt(ph*(1-ph)/140)
R:llä tämän esimerkin laskut saa laskemalla kaavassa esiintyvät arvot
ph <- 124/140 # p:n estimaatti ph+qnorm(0.005)*sqrt(ph*(1-ph)/140) # alaraja ph+qnorm(0.995)*sqrt(ph*(1-ph)/140) # yläraja
R:llä mosaic-paketista löytyy funktio binom.test
, joka suorittaa suhteelliseen osuuteen liittyviä testejä. Niitä on useita erilaisia ja tässä monisteessa esiteltyä menetelmää kutsutaan usein Waldin menetelmäksi. Ota käyttöön mosaic-paketti library(mosaic)
ja komennolla
binom.test(x=124, n=140, conf.level=0.99, ci.method="Wald")
saadaan tuloksena mm. tämä sama luottamusväli.
Huomautus 5.7.3
Tässä esitelty luottamusväli binomijakauman todennäköisyysparametrille on hyvä approksimaatio vain, kun otoskoko on riittävän suuri. Pienemmille (ja suuremmillekin) otoksille on kehitetty myös tarkempia luottamusvälin kaavoja, jotka on toteutettu monissa tilastotieteen ohjelmistoissa (R, SPSS). Matlabin funktio
[phat,pci] = binofit(124,140,0.01)
käyttää ns. Clopper-Pearson menetelmää luottamusvälin laskemiseen ja tuottaa myös joissakin tilanteissa tarkemman arvion luottamusvälille. R:n paketin mosaic
komennossa binom.test
olevaan parametriin ci.method
voi antaa arvoksi jonkin arvoista
"Clopper-Pearson", "binom.test", "Score", "Wilson", "prop.test", "Wald", "Agresti-Coull", "Plus4"
, jotka antavat erilaisia arvoja luottamusväleille. R:n paketissa stats on myös funktio binom.test
, mutta siinä ei voi valita menetelmää luottamusvälin laskemiseen, vaan se käyttää Clopper-Pearson-menetelmää, joka on myös oletusarvo mosaic-paketin komennossa.