\[\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \renewcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bbf}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-10mu}\,#1}^{\,#2}} \newcommand{\qedhere}{}\]

Luottamusvälit¶

Edellä käsitellyt otoksen \(X_1, X_2, \ldots, X_n\) perusteella määritellyt otoskeskiarvo \(\overline{X}\) ja otosvarianssi \(S^2\) ovat satunnaismuuttujansa odotusarvon \(\mu\) ja varianssin \(\sigma^2\) estimaattoreita. Ne ovat satunnaismuuttujia, joille realisoituu jokin arvo, kun otosmuuttujille mitataan arvot \(x_1, x_2, \ldots, x_n\), ja tätä arvoa kutsutaan odotusarvon tai varianssin piste-estimaatiksi. Sekä otoskeskiarvo että otosvarianssi ovat parametrinsa harhattomia (unbiased) estimaattoreita, eli niille realisoituvat arvot eivät systemaattisesti poikkea estimoitavan parametrin arvosta.

Estimaattoreiden ja estimaattien laskemista otoksen perusteella kutsutaan estimoinniksi. Tarkoituksena on saada arvioiduksi jokin populaatioon liittyvä numeerinen arvo eli parametri \(\theta\) mitattua otosta käyttämällä. Piste-estimointi antaa vastaukseksi yhden arvon, josta ei voi päätellä mitään estimaatin tarkkuudesta. Tyypillisempi estimoinnin muoto onkin luottamusväliestimointi, jossa otoksen perusteella lasketaan reaalilukuväli, jolla oikean parametrin \(\theta\) arvon luotetaan olevan.

Määritelmä 5.4.1

Satunnaismuuttujan \(X\) parametrin \(\theta\) \(100(1-\alpha)~\%\):n väliestimaattori on satunnaisväli \([\hat{\theta_1},\hat{\theta_2}]\), missä \(\hat{\theta}_1=\hat{\theta}_1(X_1,X_2,\ldots,X_n)\) ja \(\hat{\theta}_2=\hat{\theta}_2(X_1,X_2,\ldots,X_n)\) ovat sellaisia satunnaismuuttujan \(X\) otoksesta \(X_1,X_2,\ldots,X_n\) riippuvia välin päätepisteitä, että

\[P(\hat{\theta}_1\leq \theta \leq \hat{\theta}_2)=1-\alpha.\]

Realisoitunutta väliä \([\theta_1,\theta_2]\) sanotaan silloin parametrin \(\theta\) \(100(1-\alpha)~\%\):n luottamusväliksi (confidence interval). Luku \(1-\alpha\) on välin luottamusaste (degree of confidence) ja päätepisteet ovat välin ylempi ja alempi luottamusraja.

Huomautus 5.4.2

Nopeasti ajateltuna luottamusvälin käsite voi kuulostaa siltä, että kyseessä on reaalilukuväli, jolle parametrin \(\theta\) todellinen arvo kuuluu todennäköisyydellä \(1 - \alpha\). Tämä on kuitenkin väärä tulkinta. Kun otos on valittu, niin saadaan yksi luottamusväli, jonka päätepisteet ovat kiinteät reaaliluvut. Koska parametri \(\theta\) on myös tietty reaaliluku (vaikkakin tavallisesti tuntematon), parametri \(\theta\) joko sisältyy luottamusväliin tai sitten ei.

Parametriin \(\theta\) liittyvä väliestimaattori \([\hat{\theta}_1, \hat{\theta}_2]\) muodostuu oikeastaan satunnaismuuttujista \(\hat{\theta}_1\) ja \(\hat{\theta}_2\), joille realisoituu otoksen valinnasta riippuen erilaisia arvoja. Jos otoksia kerättäisiin hyvin monta kappaletta, niin niiden perusteella lasketuista luottamusväleistä \(100(1 - \alpha)~\%\) sisältää parametrin \(\theta\) todellisen arvon.

Mitä suurempaa luottamusastetta vaaditaan, sitä leveämmäksi luottamusväli tulee. Lisäksi väliestimaattorin määritelmä ei vielä kerro, mikä ehdon \(P(\hat{\theta}_1 \leq \theta \leq \hat{\theta}_2) = 1-\alpha\) toteuttavista väleistä tulisi valita. Useimmiten vaaditaan, että väli on todennäköisyyden sijoittumisen suhteen symmetrinen, eli

\[P(\theta \leq \hat{\theta}_1) = P(\theta \geq \hat{\theta}_2) = \frac{\alpha}{2}.\]

Usein käytettyjä luottamustasoja ovat \(90~\%\), \(95~\%\) ja \(99~\%\), joita vastaavat niin sanotut riskitasot \(\alpha = 0{,}1\), \(\alpha = 0{,}05\) ja \(\alpha = 0{,}01\). Väliestimoinnin toteuttaminen perustuu siihen, löydetään estimoitavaan parametriin liittyvä otossuure (satunnaismuuttuja), jonka jakauma tunnetaan. Seuraavissa luvuissa kuvaillaan tyypillisimpiin jakaumien parametreihin liittyvien luottamusväliestimaattien muodostamista.