- MATH.APP.210
- 5. Otosjakaumat ja estimointi
- 5.7 Suhteellisen osuuden luottamusväli
Suhteellisen osuuden luottamusväli¶
Oletetaan, että X\sim\Bin(n,p), missä p on onnistumisen todennäköisyys n-toistokokeen yksittäisessä toistossa. Todennäköisyyden frekvenssitulkinnassa p on myös onnistumisten suhteellinen frekvenssi, eli niiden suhteellinen osuus kaikista toistoista. Satunnaismuuttuja X voidaan tulkita Bernoullin jakaumaa \Ber(p) = \Bin(1, p) noudattavien satunnaismuuttujien Y_1, Y_2, \ldots, Y_n summana X = Y_1 + Y_2 + \cdots + Y_n, ja tällöin satunnaismuuttujat Y_1, Y_2, \ldots, Y_n muodostavat otoksen satunnaismuuttujasta Y \sim \Bin(1, p).
Monesti satunnaismuuttujan Y jakauman parametri p on tuntematon, jolloin sitä on estimoitava. Sekä binomijakauman ja otoskeskiarvon odotusarvo tunnetaan, jolloin
missä
Satunnaismuuttuja \hat{P} = \frac{1}{n}X on siis suhteellisen osuuden p harhaton estimaattori. Tässä binomijakaumaa noudattava X kuvaa onnistumisien frekvenssiä n-toistokokeessa, joten \hat{P} edustaa niiden suhteellista frekvenssiä. Muuttujan \hat{P} varianssi
ja koska \hat{P} = \overline{Y}, niin keskeisen raja-arvolauseen nojalla
kun otoskoko n on riittävän suuri.
Valitaan luottamustasoksi 1 - \alpha. Edellisen perusteella päätellään, että standardoitu suhteellinen osuus
jolloin löydetään luku z_{\alpha/2}, jolle P(Z > z_{\alpha/2}) = \frac{\alpha}{2}. Normaalijakauman symmetrisyyden vuoksi myös P(Z < -z_{\alpha/2}) = \frac{\alpha}{2}, ja täten
Toisin kuin odotusarvon ja varianssin tapauksissa, suhteellista osuutta p ei voida täsmällisesti rajata vain estimaattorista \hat{P} riippuvien päätepisteiden väliin. Menetellään sen sijaan seuraavasti. Juuri johdetusta seuraa, että
Kun n on suuri, suhteellisen osuuden p harhattoman estimaattorin \hat{P} varianssi on niin pieni, että sille realisoituvat arvot ovat tyypillisesti hyvin lähellä parametrin p todellista arvoa. Siksi korvataan p neliöjuurilausekkeessa sen estimaattorilla \hat{P} ja todetaan, että
Lause 5.7.1
Oletetaan, että X\sim\Bin(n,p). Parametrin p 100(1-\alpha)~\%:n väliestimaattori on likimain
missä \Phi(z_{\alpha/2})=1-\frac{\alpha}{2}. Jos suhteelliselle osuudelle \hat{P} realisoituu arvo \hat{p}, niin parametrin p 100(1 - \alpha)~\%:n luottamusväli on likimain
Esimerkki 5.7.2
Tietyllä reitillä 124 yhteensä 140 viikottaisesta lennosta sujui ilman ongelmia (myöhästymisiä, huonoa säätä, laiterikkoja). Laske 99~\%:n luottamusväli todennäköisyydelle, jolla satunnaisesti valittu lento onnistuu ilman mainittuja vaikeuksia.
Olkoon p todennäköisyys sille, että satunnaisesti valittu lento onnistuu, jolloin havaintoaineistossa ongelmattomien lentojen lukumäärä X\sim\Bin(140,p). Piste-estimaatti parametrille p saadaan laskettua ongelmattomien lentojen suhteellisena frekvenssinä
Luottamustasoa 99~\% vastaa \alpha = 0.01. Likimääräisen luottamusvälin kaavassa
esiintyvä luku z_{\alpha/2} \approx 2.5758 saadaan taulukosta tai esimerkiksi Matlab- ja R-komennoilla norminv(1 - 0.01/2)
ja qnorm(1 - 0.01/2)
. Näin onnistuneen lennon todennäköisyyden 99~\%:n luottamusväli on likimain
Matlabilla tämän esimerkin laskut saa laskemalla kaavassa esiintyvät arvot
ph = 124/140 % p:n estimaatti ph+norminv([0.005, 0.995])*sqrt(ph*(1-ph)/140)
R:llä tämän esimerkin laskut saa laskemalla kaavassa esiintyvät arvot
ph <- 124/140 # p:n estimaatti ph+qnorm(0.005)*sqrt(ph*(1-ph)/140) # alaraja ph+qnorm(0.995)*sqrt(ph*(1-ph)/140) # yläraja
R:llä mosaic-paketista löytyy funktio binom.test
, joka suorittaa suhteelliseen osuuteen liittyviä testejä. Niitä on useita erilaisia ja tässä monisteessa esiteltyä menetelmää kutsutaan usein Waldin menetelmäksi. Ota käyttöön mosaic-paketti library(mosaic)
ja komennolla
binom.test(x=124, n=140, conf.level=0.99, ci.method="Wald")
saadaan tuloksena mm. tämä sama luottamusväli.
Huomautus 5.7.3
Tässä esitelty luottamusväli binomijakauman todennäköisyysparametrille on hyvä approksimaatio vain, kun otoskoko on riittävän suuri. Pienemmille (ja suuremmillekin) otoksille on kehitetty myös tarkempia luottamusvälin kaavoja, jotka on toteutettu monissa tilastotieteen ohjelmistoissa (R, SPSS). Matlabin funktio
[phat,pci] = binofit(124,140,0.01)
käyttää ns. Clopper-Pearson menetelmää luottamusvälin laskemiseen ja tuottaa myös joissakin tilanteissa tarkemman arvion luottamusvälille. R:n paketin mosaic
komennossa binom.test
olevaan parametriin ci.method
voi antaa arvoksi jonkin arvoista
"Clopper-Pearson", "binom.test", "Score", "Wilson", "prop.test", "Wald", "Agresti-Coull", "Plus4"
, jotka antavat erilaisia arvoja luottamusväleille. R:n paketissa stats on myös funktio binom.test
, mutta siinä ei voi valita menetelmää luottamusvälin laskemiseen, vaan se käyttää Clopper-Pearson-menetelmää, joka on myös oletusarvo mosaic-paketin komennossa.