\[\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \newcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bff}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\nv}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\pv}{\overline} \newcommand{\iu}{\mathrm{i}} \newcommand{\ju}{\mathrm{j}} \newcommand{\im}{\mathrm{i}} \newcommand{\e}{\mathrm{e}} \newcommand{\real}{\operatorname{Re}} \newcommand{\imag}{\operatorname{Im}} \newcommand{\Arg}{\operatorname{Arg}} \newcommand{\Ln}{\operatorname{Ln}} \DeclareMathOperator*{\res}{res} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\sgn}{\operatorname{sgn}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \newcommand{\vir}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\norm}[1]{\lVert #1 \rVert} \newcommand{\tp}[1]{#1^{\top}} \renewcommand{\d}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-15mu}#1}^{\,#2}} \newcommand{\abs}[1]{\lvert#1\rvert} \newcommand{\pysty}[1]{\left[\begin{array}{@{}r@{}}#1\end{array}\right]} \newcommand{\piste}{\cdot} \newcommand{\qedhere}{} \newcommand{\taumatrix}[1]{\left[\!\!#1\!\!\right]} \newenvironment{augmatrix}[1]{\left[\begin{array}{#1}}{\end{array}\right]} \newenvironment{vaugmatrix}[1]{\left|\begin{array}{#1}}{\end{array}\right|} \newcommand{\trans}{\mathrm{T}} \newcommand{\EUR}{\text{\unicode{0x20AC}}} \newcommand{\SI}[3][]{#2\,\mathrm{#3}} \newcommand{\si}[2][]{\mathrm{#2}} \newcommand{\num}[2][]{#2} \newcommand{\ang}[2][]{#2^{\circ}} \newcommand{\meter}{m} \newcommand{\metre}{\meter} \newcommand{\kilo}{k} \newcommand{\kilogram}{kg} \newcommand{\gram}{g} \newcommand{\squared}{^2} \newcommand{\cubed}{^3} \newcommand{\minute}{min} \newcommand{\hour}{h} \newcommand{\second}{s} \newcommand{\degreeCelsius}{^{\circ}C} \newcommand{\per}{/} \newcommand{\centi}{c} \newcommand{\milli}{m} \newcommand{\deci}{d} \newcommand{\percent}{\%} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}}\]

Luottamusvälit

Edellä käsitellyt otoksen \(X_1, X_2, \ldots, X_n\) perusteella määritellyt otoskeskiarvo \(\overline{X}\) ja otosvarianssi \(S^2\) ovat satunnaismuuttujansa odotusarvon \(\mu\) ja varianssin \(\sigma^2\) estimaattoreita. Ne ovat satunnaismuuttujia, joille realisoituu jokin arvo, kun otosmuuttujille mitataan arvot \(x_1, x_2, \ldots, x_n\), ja tätä arvoa kutsutaan odotusarvon tai varianssin piste-estimaatiksi. Sekä otoskeskiarvo että otosvarianssi ovat parametrinsa harhattomia (unbiased) estimaattoreita, eli niille realisoituvat arvot eivät systemaattisesti poikkea estimoitavan parametrin arvosta.

Estimaattoreiden ja estimaattien laskemista otoksen perusteella kutsutaan estimoinniksi. Tarkoituksena on saada arvioiduksi jokin populaatioon liittyvä numeerinen arvo eli parametri \(\theta\) mitattua otosta käyttämällä. Piste-estimointi antaa vastaukseksi yhden arvon, josta ei voi päätellä mitään estimaatin tarkkuudesta. Tyypillisempi estimoinnin muoto onkin luottamusväliestimointi, jossa otoksen perusteella lasketaan reaalilukuväli, jolla oikean parametrin \(\theta\) arvon luotetaan olevan.

Määritelmä 5.4.1

Satunnaismuuttujan \(X\) parametrin \(\theta\) \(100(1-\alpha)~\%\):n väliestimaattori on satunnaisväli \([\hat{\theta_1},\hat{\theta_2}]\), missä \(\hat{\theta}_1=\hat{\theta}_1(X_1,X_2,\ldots,X_n)\) ja \(\hat{\theta}_2=\hat{\theta}_2(X_1,X_2,\ldots,X_n)\) ovat sellaisia satunnaismuuttujan \(X\) otoksesta \(X_1,X_2,\ldots,X_n\) riippuvia välin päätepisteitä, että

\[P(\hat{\theta}_1\leq \theta \leq \hat{\theta}_2)=1-\alpha.\]

Realisoitunutta väliä \([\theta_1,\theta_2]\) sanotaan silloin parametrin \(\theta\) \(100(1-\alpha)~\%\):n luottamusväliksi (confidence interval). Luku \(1-\alpha\) on välin luottamusaste (degree of confidence) ja päätepisteet ovat välin alempi ja ylempi luottamusraja.

Huomautus 5.4.2

Nopeasti ajateltuna luottamusvälin käsite voi kuulostaa siltä, että kyseessä on reaalilukuväli, jolle parametrin \(\theta\) todellinen arvo kuuluu todennäköisyydellä \(1 - \alpha\). Tämä on kuitenkin väärä tulkinta. Kun otos on valittu, niin saadaan yksi luottamusväli, jonka päätepisteet ovat kiinteät reaaliluvut. Koska parametri \(\theta\) on myös tietty reaaliluku (vaikkakin tavallisesti tuntematon), parametri \(\theta\) joko sisältyy luottamusväliin tai sitten ei.

Parametriin \(\theta\) liittyvä väliestimaattori \([\hat{\theta}_1, \hat{\theta}_2]\) muodostuu satunnaismuuttujista \(\hat{\theta}_1\) ja \(\hat{\theta}_2\), joille realisoituu otoksen valinnasta riippuen erilaisia arvoja. Jos otoksia kerättäisiin hyvin monta kappaletta, niin niiden perusteella lasketuista luottamusväleistä \(100(1 - \alpha)~\%\) sisältää parametrin \(\theta\) todellisen arvon.

Esimerkki 5.4.3

Normaalijakaumasta \(\rN(10,16)\) on generoitu sata sadan alkion otosta. Näistä on laskettu otoskeskiarvojen 95%:n luottamusvälit. Luottamusvälin tulkinnan mukaan odotusarvon oikea arvo \(\mu=10\) sisältyy 95% luottamusväleistä, jos otoksia tehtäisiin äärettömän monta. Kuvassa on punaisella merkittynä ne luottamusvälit, jotka eivät sisällä arvoa 10. Niitä on 6. Odotusarvo \(\mu=10\) sisältyy 94/100=94% luottamusväleistä.

../_images/lvkuva.svg

Toisin kuin tässä esimerkissä odotusarvon tarkka arvo on tavallisesti tuntematon ja yleensä käytössä on vain yksi otos. Luottamusvälinkään avulla ei voida koskaan tietää täysin varmasti mitään väliä, jolle parametrin todellinen arvo osuu. Jos laskettaisiin 100%:n luottamusväli, niin se olisi koko reaalilukujen joukko, mikä olisi tietona triviaali ja hyödytön.

Mitä suurempaa luottamusastetta vaaditaan, sitä leveämmäksi luottamusväli tulee. Lisäksi väliestimaattorin määritelmä ei vielä kerro, mikä ehdon \(P(\hat{\theta}_1 \leq \theta \leq \hat{\theta}_2) = 1-\alpha\) toteuttavista väleistä tulisi valita. Useimmiten vaaditaan, että väli on todennäköisyyden sijoittumisen suhteen symmetrinen, eli

\[P(\theta \leq \hat{\theta}_1) = P(\theta \geq \hat{\theta}_2) = \frac{\alpha}{2}.\]

Tällöin puhutaan kaksisuuntaisesta symmetrisestä luottamusvälistä. Usein käytettyjä luottamustasoja ovat \(90~\%\), \(95~\%\) ja \(99~\%\), joita vastaavat niin sanotut riskitasot \(\alpha = 0.1\), \(\alpha = 0.05\) ja \(\alpha = 0.01\).

Luottamusväli voi olla myös yksisuuntainen. Tällöin luottamusvälin ulkopuolelle jäävä osa on vain jakauman toisessa reunassa. Luottamusväli on \((-\infty, \hat{\theta}]\) tai \([\hat{\theta},\infty)\), jolle

\[P(\theta \leq \hat{\theta}) = \alpha\ \ \textrm{ tai }\ \ P(\theta \geq \hat{\theta}) = \alpha.\]

Väliestimoinnin toteuttaminen perustuu siihen, että löydetään estimoitavaan parametriin liittyvä otossuure (satunnaismuuttuja), jonka jakauma tunnetaan. Seuraavissa luvuissa kuvaillaan tyypillisimpiin jakaumien parametreihin liittyvien luottamusväliestimaattien muodostamista.

Luottamusväli on
Studentin \(t\)-jakaumaa noudattavan satunnaismuuttujan \(T\) tiheysfunktio on yksihuippuinen ja symmetrinen. Tällöin
Palautusta lähetetään...