Processing math: 0%
Tämä kurssi on jo päättynyt.
% MATHEMATICAL SYMBOLS -------------------------------------------------- % Lukualueet \newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \renewcommand{\C}{\mathbb C} % Lihavoidut vektorit. \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bbf}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} % Kaunokirjaimet \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} % Pystykirjaimet \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} % Operaattorit \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} %\newcommand{\dist}{\operatorname{d}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} % Todennäköisyyslaskenta \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} % Pysty-d differentiaaliin \newcommand{\rd}{\mathrm{d}} % Sijoitus integraaliin \newcommand{\sij}[2]{\bigg/_{\mspace{-10mu}\,#1}^{\,#2}}

Suhteellisen osuuden luottamusväli

Oletetaan, että X\sim\Bin(n,p), missä p on onnistumisen todennäköisyys n-toistokokeen yksittäisessä toistossa. Todennäköisyyden frekvenssitulkinnassa p on myös onnistumisten suhteellinen frekvenssi, eli niiden suhteellinen osuus kaikista toistoista. Satunnaismuuttuja X voidaan tulkita Bernoullin jakaumaa \Ber(p) = \Bin(1, p) noudattavien satunnaismuuttujien Y_1, Y_2, \ldots, Y_n summana X = Y_1 + Y_2 + \cdots + Y_n, ja tällöin satunnaismuuttujat Y_1, Y_2, \ldots, Y_n muodostavat otoksen satunnaismuuttujasta Y \sim \Bin(1, p).

Monesti satunnaismuuttujan Y jakauman parametri p on tuntematon, jolloin sitä on estimoitava. Sekä binomijakauman ja otoskeskiarvon odotusarvo tunnetaan, jolloin

\rE(Y) = \rE(\overline{Y}) = p,

missä

\overline{Y} = \frac{1}{n}\sum_{i = 1}^{n}Y_i = \frac{X}{n}.

Satunnaismuuttuja \hat{P} = \frac{1}{n}X on siis suhteellisen osuuden p harhaton estimaattori. Tässä binomijakaumaa noudattava X kuvaa onnistumisien frekvenssiä n-toistokokeessa, joten \hat{P} edustaa niiden suhteellista frekvenssiä. Muuttujan \hat{P} varianssi

\Var(\hat{P}) = \Var(\overline{Y}) = \frac{\Var(Y)}{n} = \frac{p(1 - p)}{n},

ja koska \hat{P} = \overline{Y}, niin keskeisen raja-arvolauseen nojalla

\hat{P} \stackrel{.}{\sim} \rN\left(p, \frac{p(1 - p)}{n}\right),

kun otoskoko n on riittävän suuri.

Valitaan luottamustasoksi 1 - \alpha. Edellisen perusteella päätellään, että standardoitu suhteellinen osuus

Z = \frac{\hat{P} - p}{\sqrt{p(1 - p)/n}} \sim \rN(0, 1),

jolloin löydetään luku z_{\alpha/2}, jolle P(Z > z_{\alpha/2}) = \frac{\alpha}{2}. Normaalijakauman symmetrisyyden vuoksi myös P(Z < -z_{\alpha/2}) = \frac{\alpha}{2}, ja täten

P\left(-z_{\alpha/2} < \frac{\hat{P} - p}{\sqrt{p(1 - p)/n}} < z_{\alpha/2}\right) = 1 - \alpha.

Toisin kuin odotusarvon ja varianssin tapauksissa, suhteellista osuutta p ei voida täsmällisesti rajata vain estimaattorista \hat{P} riippuvien päätepisteiden väliin. Menetellään sen sijaan seuraavasti. Juuri johdetusta seuraa, että

P\left(\hat{P} - z_{\alpha/2}\sqrt{\frac{p(1 - p)}{n}} < p < \hat{P} + z_{\alpha/2}\sqrt{\frac{p(1 - p)}{n}}\right) = 1 - \alpha.

Kun n on suuri, suhteellisen osuuden p harhattoman estimaattorin \hat{P} varianssi on niin pieni, että sille realisoituvat arvot ovat tyypillisesti hyvin lähellä parametrin p todellista arvoa. Siksi korvataan p neliöjuurilausekkeessa sen estimaattorilla \hat{P} ja todetaan, että

P\left(\hat{P} - z_{\alpha/2}\sqrt{\frac{\hat{P}(1 - \hat{P})}{n}} < p < \hat{P} + z_{\alpha/2}\sqrt{\frac{\hat{P}(1 - \hat{P})}{n}}\right) \approx 1 - \alpha.

Lause 6.7.1

Oletetaan, että X\sim\Bin(n,p). Parametrin p 100(1-\alpha)~\%:n väliestimaattori on likimain

\left[\hat{P}-z_{\alpha/2}\sqrt{\frac{\hat{P}(1-\hat{P})}{n}}, \hat{P}+z_{\alpha/2}\sqrt{\frac{\hat{P}(1-\hat{P})}{n}}\right],

missä \Phi(z_{\alpha/2})=1-\frac{\alpha}{2}. Jos suhteelliselle osuudelle \hat{P} realisoituu arvo \hat{p}, niin parametrin p 100(1 - \alpha)~\%:n luottamusväli on likimain

\left[\hat{p}-z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right].

Esimerkki 6.7.2

Tietyllä reitillä 124 yhteensä 140 viikottaisesta lennosta sujui ilman ongelmia (myöhästymisiä, huonoa säätä, laiterikkoja). Laske 99~\%:n luottamusväli todennäköisyydelle, jolla satunnaisesti valittu lento onnistuu ilman mainittuja vaikeuksia.

Ratkaisu

Olkoon p todennäköisyys sille, että satunnaisesti valittu lento onnistuu, jolloin havaintoaineistossa ongelmattomien lentojen lukumäärä X\sim\Bin(140,p). Piste-estimaatti parametrille p saadaan laskettua ongelmattomien lentojen suhteellisena frekvenssinä

\hat{p} = \frac{124}{140} \approx 0{,}886.

Luottamustasoa 99~\% vastaa \alpha = 0{,}01. Likimääräisen luottamusvälin kaavassa

\left[\hat{p}-z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]

esiintyvä luku z_{\alpha/2} \approx 2{,}5758 saadaan taulukosta tai esimerkiksi Matlab- ja R-komennoilla norminv(1 - 0.01/2) ja qnorm(1 - 0.01/2). Näin onnistuneen lennon todennäköisyyden 99~\%:n luottamusväli on likimain

\begin{split}\begin{aligned} &\left[0{,}886-2{,}5758 \cdot \sqrt{\frac{0{,}886 \cdot (1-0{,}886)}{140}}, 0{,}886+2{,}5758\sqrt{\frac{0{,}886 \cdot (1-0{,}886)}{140}}\right] \\ &\approx [0{,}816, 0{,}955]. \end{aligned}\end{split}

Huomautus 6.7.3

Tässä esitelty luottamusväli binomijakauman todennäköisyysparametrille on hyvä approksimaatio vain, kun otoskoko on riittävän suuri. Pienemmille (ja suuremmillekin) otoksille on kehitetty myös tarkempia luottamusvälin kaavoja, jotka on toteutettu monissa tilastotieteen ohjelmistoissa (R, SPSS). Matlabin funktio binofit tuottaa myös joissakin tilanteissa tarkemman arvion luottamusvälille.

Puolueiden kannatusmittauksessa haastateltiin 1316 äänioikeutettua suomalaista, joista 298 ilmoitti kannattavansa kokoomusta. Laske kokoomuksen kannatukselle 95~\%:n luottamusväli.
Palautusta lähetetään...