Processing math: 100%

Suhteellisen osuuden luottamusväli

Oletetaan, että XBin(n,p), missä p on onnistumisen todennäköisyys n-toistokokeen yksittäisessä toistossa. Todennäköisyyden frekvenssitulkinnassa p on myös onnistumisten suhteellinen frekvenssi, eli niiden suhteellinen osuus kaikista toistoista. Satunnaismuuttuja X voidaan tulkita Bernoullin jakaumaa Ber(p)=Bin(1,p) noudattavien satunnaismuuttujien Y1,Y2,,Yn summana X=Y1+Y2++Yn, ja tällöin satunnaismuuttujat Y1,Y2,,Yn muodostavat otoksen satunnaismuuttujasta YBin(1,p).

Monesti satunnaismuuttujan Y jakauman parametri p on tuntematon, jolloin sitä on estimoitava. Sekä binomijakauman ja otoskeskiarvon odotusarvo tunnetaan, jolloin

(1)E(Y)=E(¯Y)=p,

missä

¯Y=1nni=1Yi=Xn.

Satunnaismuuttuja ˆP=1nX on siis suhteellisen osuuden p harhaton estimaattori. Tässä binomijakaumaa noudattava X kuvaa onnistumisien frekvenssiä n-toistokokeessa, joten ˆP edustaa niiden suhteellista frekvenssiä. Muuttujan ˆP varianssi

Var(ˆP)=Var(¯Y)=Var(Y)n=p(1p)n,

ja koska ˆP=¯Y, niin keskeisen raja-arvolauseen nojalla

ˆP.N(p,p(1p)n),

kun otoskoko n on riittävän suuri.

Valitaan luottamustasoksi 1α. Edellisen perusteella päätellään, että standardoitu suhteellinen osuus

Z=ˆPpp(1p)/nN(0,1),

jolloin löydetään luku zα/2, jolle P(Z>zα/2)=α2. Normaalijakauman symmetrisyyden vuoksi myös P(Z<zα/2)=α2, ja täten

P(zα/2<ˆPpp(1p)/n<zα/2)=1α.

Toisin kuin odotusarvon ja varianssin tapauksissa, suhteellista osuutta p ei voida täsmällisesti rajata vain estimaattorista ˆP riippuvien päätepisteiden väliin. Menetellään sen sijaan seuraavasti. Juuri johdetusta seuraa, että

P(ˆPzα/2p(1p)n<p<ˆP+zα/2p(1p)n)=1α.

Kun n on suuri, suhteellisen osuuden p harhattoman estimaattorin ˆP varianssi on niin pieni, että sille realisoituvat arvot ovat tyypillisesti hyvin lähellä parametrin p todellista arvoa. Siksi korvataan p neliöjuurilausekkeessa sen estimaattorilla ˆP ja todetaan, että

P(ˆPzα/2ˆP(1ˆP)n<p<ˆP+zα/2ˆP(1ˆP)n)1α.

Lause 5.7.1

Oletetaan, että XBin(n,p). Parametrin p 100(1α) %:n väliestimaattori on likimain

[ˆPzα/2ˆP(1ˆP)n,ˆP+zα/2ˆP(1ˆP)n],

missä Φ(zα/2)=1α2. Jos suhteelliselle osuudelle ˆP realisoituu arvo ˆp, niin parametrin p 100(1α) %:n luottamusväli on likimain

[ˆpzα/2ˆp(1ˆp)n,ˆp+zα/2ˆp(1ˆp)n].

Esimerkki 5.7.2

Tietyllä reitillä 124 yhteensä 140 viikottaisesta lennosta sujui ilman ongelmia (myöhästymisiä, huonoa säätä, laiterikkoja). Laske 99 %:n luottamusväli todennäköisyydelle, jolla satunnaisesti valittu lento onnistuu ilman mainittuja vaikeuksia.

Piilota/näytä ratkaisu

Olkoon p todennäköisyys sille, että satunnaisesti valittu lento onnistuu, jolloin havaintoaineistossa ongelmattomien lentojen lukumäärä XBin(140,p). Piste-estimaatti parametrille p saadaan laskettua ongelmattomien lentojen suhteellisena frekvenssinä

ˆp=1241400.886.

Luottamustasoa 99 % vastaa α=0.01. Likimääräisen luottamusvälin kaavassa

[ˆpzα/2ˆp(1ˆp)n,ˆp+zα/2ˆp(1ˆp)n]

esiintyvä luku zα/22.5758 saadaan taulukosta tai esimerkiksi Matlab- ja R-komennoilla norminv(1 - 0.01/2) ja qnorm(1 - 0.01/2). Näin onnistuneen lennon todennäköisyyden 99 %:n luottamusväli on likimain

[0.8862.57580.886(10.886)140,0.886+2.57580.886(10.886)140][0.816,0.955].

Matlabilla tämän esimerkin laskut saa laskemalla kaavassa esiintyvät arvot

   ph = 124/140 % p:n estimaatti
   ph+norminv([0.005, 0.995])*sqrt(ph*(1-ph)/140)

R:llä tämän esimerkin laskut saa laskemalla kaavassa esiintyvät arvot

   ph <- 124/140 # p:n estimaatti
   ph+qnorm(0.005)*sqrt(ph*(1-ph)/140) # alaraja
   ph+qnorm(0.995)*sqrt(ph*(1-ph)/140) # yläraja

R:llä mosaic-paketista löytyy funktio binom.test, joka suorittaa suhteelliseen osuuteen liittyviä testejä. Niitä on useita erilaisia ja tässä monisteessa esiteltyä menetelmää kutsutaan usein Waldin menetelmäksi. Ota käyttöön mosaic-paketti library(mosaic)ja komennolla

   binom.test(x=124, n=140, conf.level=0.99, ci.method="Wald")

saadaan tuloksena mm. tämä sama luottamusväli.

Huomautus 5.7.3

Tässä esitelty luottamusväli binomijakauman todennäköisyysparametrille on hyvä approksimaatio vain, kun otoskoko on riittävän suuri. Pienemmille (ja suuremmillekin) otoksille on kehitetty myös tarkempia luottamusvälin kaavoja, jotka on toteutettu monissa tilastotieteen ohjelmistoissa (R, SPSS). Matlabin funktio

   [phat,pci] = binofit(124,140,0.01) 

käyttää ns. Clopper-Pearson menetelmää luottamusvälin laskemiseen ja tuottaa myös joissakin tilanteissa tarkemman arvion luottamusvälille. R:n paketin mosaic komennossa binom.test olevaan parametriin ci.method voi antaa arvoksi jonkin arvoista "Clopper-Pearson", "binom.test", "Score", "Wilson", "prop.test", "Wald", "Agresti-Coull", "Plus4", jotka antavat erilaisia arvoja luottamusväleille. R:n paketissa stats on myös funktio binom.test, mutta siinä ei voi valita menetelmää luottamusvälin laskemiseen, vaan se käyttää Clopper-Pearson-menetelmää, joka on myös oletusarvo mosaic-paketin komennossa.

Puolueiden kannatusmittauksessa haastateltiin 1316 äänioikeutettua suomalaista, joista 298 ilmoitti kannattavansa kokoomusta. Laske kokoomuksen kannatukselle 95 %:n luottamusväli.
Palautusta lähetetään...