\[\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \newcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bff}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\nv}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\pv}{\overline} \newcommand{\iu}{\mathrm{i}} \newcommand{\ju}{\mathrm{j}} \newcommand{\im}{\mathrm{i}} \newcommand{\e}{\mathrm{e}} \newcommand{\real}{\operatorname{Re}} \newcommand{\imag}{\operatorname{Im}} \newcommand{\Arg}{\operatorname{Arg}} \newcommand{\Ln}{\operatorname{Ln}} \DeclareMathOperator*{\res}{res} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\sgn}{\operatorname{sgn}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \newcommand{\vir}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\norm}[1]{\lVert #1 \rVert} \newcommand{\tp}[1]{#1^{\top}} \renewcommand{\d}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-15mu}#1}^{\,#2}} \newcommand{\abs}[1]{\lvert#1\rvert} \newcommand{\pysty}[1]{\left[\begin{array}{@{}r@{}}#1\end{array}\right]} \newcommand{\piste}{\cdot} \newcommand{\qedhere}{} \newcommand{\taumatrix}[1]{\left[\!\!#1\!\!\right]} \newenvironment{augmatrix}[1]{\left[\begin{array}{#1}}{\end{array}\right]} \newenvironment{vaugmatrix}[1]{\left|\begin{array}{#1}}{\end{array}\right|} \newcommand{\trans}{\mathrm{T}} \newcommand{\EUR}{\text{\unicode{0x20AC}}} \newcommand{\SI}[3][]{#2\,\mathrm{#3}} \newcommand{\si}[2][]{\mathrm{#2}} \newcommand{\num}[2][]{#2} \newcommand{\ang}[2][]{#2^{\circ}} \newcommand{\meter}{m} \newcommand{\metre}{\meter} \newcommand{\kilo}{k} \newcommand{\kilogram}{kg} \newcommand{\gram}{g} \newcommand{\squared}{^2} \newcommand{\cubed}{^3} \newcommand{\minute}{min} \newcommand{\hour}{h} \newcommand{\second}{s} \newcommand{\degreeCelsius}{^{\circ}C} \newcommand{\per}{/} \newcommand{\centi}{c} \newcommand{\milli}{m} \newcommand{\deci}{d} \newcommand{\percent}{\%} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}}\]

Odotusarvon luottamusväli¶

Odotusarvon luottamusväli, kun varianssi on tunnettu.

Olkoon \(X_1,X_2,\ldots,X_n\) otos satunnaismuuttujasta \(X\sim\rN(\mu,\sigma^2)\), jonka varianssi tunnetaan. Tällöin otoskeskiarvo \(\overline{X}\) noudattaa normaalijakaumaa \(\rN\left(\mu, \frac{\sigma^2}{n}\right)\), ja edelleen

\[\frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim \rN(0,1).\]

Valitaan odotusarvon estimoinnin luottamustasoksi \(1-\alpha\), jolloin standardinormaalijakaumasta voidaan määrittää luku \(z_{\alpha/2}\), jolle \(P(Z>z_{\alpha/2})=\frac{\alpha}{2}\). Koska normaalijakauma on symmetrinen, myös \(P(Z<-z_{\alpha/2})=\frac{\alpha}{2}\), ja täten

\[P\left(-z_{\alpha/2}<\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}<z_{\alpha/2}\right)=1-\alpha.\]

Tapahtumaksi kirjoitetusta epäyhtälöparista voidaan myös ratkaista estimoitavana oleva odotusarvo \(\mu\), jolloin

\[P\left(\overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}} < \mu < \overline{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right) = 1-\alpha.\]

Lause 5.5.1

Olkoon \(X_1,X_2,\ldots,X_n\) otos satunnaismuuttujasta \(X\sim\rN(\mu,\sigma^2)\), jossa varianssi \(\sigma^2\) tunnetaan. Tällöin odotusarvon \(\mu\) \(100(1-\alpha)~\%\):n väliestimaattori on

\[\left[\overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right],\]

missä \(\Phi(z_{\alpha/2})=1-\frac{\alpha}{2}\). Jos otoskeskiarvolle realisoituu arvo \(\overline{x}\), niin odotusarvon \(100(1 - \alpha)~\%\):n luottamusväli on

\[\left[\overline{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right].\]

Huomautus 5.5.2

Kun otoskoko on suuri, keskeisen raja-arvolauseen mukaan lähes mitä tahansa jakaumaa noudattavan satunnaismuuttujan otoskeskiarvo noudattaa normaalijakaumaa. Siksi edellistä lausetta voidaan käyttää myös muille kuin normaalijakautuneille satunnaismuuttujille suurilla otoksilla, kunhan varianssi \(\sigma^2\) tunnetaan.

Esimerkki 5.5.3

Juomatölkkejä täyttävän koneen kerralla päästämän nesteen tilavuuden varianssin tiedetään olevan \(\sigma^2 = 9\) neliömillilitraa. Yhteensä \(n = 50\) toiston otoksessa tilavuuden otoskeskiarvoksi realisoitui \(\overline{x} = 325\) millilitraa. Määritä täyttötilavuudelle \(95~\%\) luottamusväli.

Piilota/näytä ratkaisu

Keskeisen raja-arvolauseen nojalla tilavuuden otoskeskiarvo noudattaa likimain normaalijakaumaa, joten luottamusväli on muotoa

\[\left[\overline{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}},\ \overline{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right],\]

missä \(\sigma = 3\) millilitraa ja \(\Phi(z_{\alpha/2}) = 1 - \frac{1}{2} \cdot (1 - 0.95) = 0.975\). Luku \(z_{\alpha/2} \approx 1.9600\) saadaan Matlabilla norminv(0.975) tai R:llä qnorm(0.975), jolloin kysytyksi luottamusväliksi saadaan

\[\left[325 - 1.9600 \cdot \frac{3}{\sqrt{50}}, 325 + 1.9600 \cdot \frac{3}{\sqrt{50}}\right] \approx [324.1685, 325.8315].\]

Matlabilla ja R:llä luottamusväliä laskettaessa käytetään näitä kaavoja, jos alkuperäinen data ei ole käytettävissä. Kun tiedetään otoskeskiarvo \(=325\), varianssi \(=9\) ja otoskoko \(=50\) saadaan esimerkin luottamusväli Matlabilla

   325+norminv([0.025, 0.975])*sqrt(9)/sqrt(50)

Vastaavasti R:llä:

   325+qnorm(0.025)*sqrt(9)/sqrt(50) # alaraja
   325+qnorm(0.975)*sqrt(9)/sqrt(50) # yläraja

Odotusarvon luottamusväli, kun varianssi on tuntematon.

Tavallisempi tilanne on kuitenkin, että satunnaismuuttuja voidaan olettaa normaalijakautuneeksi, mutta varianssia ei tunneta. Varianssille löydetään harhaton piste-estimaatti otosvarianssin

\[S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\]

avulla, mutta koska kyseessä on satunnaismuuttuja, väliestimointiin vaikuttavat satunnaistekijät lisääntyvät, eikä otoskeskiarvo ole enää normaalijakautunut. Tuntemattoman varianssin tapauksessa väliestimoinnissa käytetäänkin (Studentin) \(t\)-jakaumaa.

Määritelmä 5.5.4

Jatkuva satunnaismuuttuja \(T\) noudattaa Studentin \(t\)-jakaumaa vapausastein \(n\) (Student’s \(t\) distribution with \(n\) degrees of freedom), \(T \sim t(n)\), jos sen tiheysfunktio

\[f(t) = \frac{1}{\sqrt{n\pi}}\frac{\Gamma\left(\frac{n + 1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}}, \qquad\text{kun } t \in \Omega = \R,\]

missä \(\Gamma(t) = \int_{0}^{\infty}e^{-x}x^{t - 1}\,\rd x\) on Eulerin gammafunktio.

Studentin \(t\)-jakaumaa noudattavan satunnaismuuttujan \(T\) tiheysfunktio on yksihuippuinen ja symmetrinen keskikohdan \(0\) suhteen. Se muistuttaa muodoltaan normaalijakaumaa \(\rN(0,1)\), ja voidaan osoittaa, että \(t\)-jakauma lähenee standardinormaalijakaumaa, kun vapausasteluku \(n\to\infty\).

Liitetaulukoista tai ohjelmista (Matlab, R) löytyy satunnaismuuttujan \(T\sim t(n)\) kertymäfunktion \(F(t)=P(T\leq t)\) ja sen käänteisfunktion arvoja. Vastaavasti kuin normaalijakauman kanssa kertymäfunktion arvo negatiivisilla muuttujan \(t\) arvoilla selvitetään symmetrian nojalla: \(F(-t) = 1 - F(t)\).

Esimerkki 5.5.5

Oletetaan, että \(T \sim t(18)\) ja määrätään reaaliluvut \(t_1\) ja \(t_2\), joille \(P(|T| \leq t_1) = 0.9\) ja \(P(T \leq t_2)=0.01\). Ensimmäinen todennäköisyys

\[P(|T| \leq t_1) = P(-t_1 \leq T \leq t_1) = F(t_1) - F(-t_1) = 2F(t_1) - 1\]

symmetrian nojalla, kun \(F\) on jakauman \(t(18)\) kertymäfunktio. Näin päätellään, että \(F(t_1) = \frac{1}{2} \cdot (1 + 0.9) = 0.95\), joten taulukon vapausastelukua \(18\) vastaavalta riviltä luetaan, että \(t_1 \approx 1.734\). Todennäköisyyden arvoa \(0.01\) ei löydetä \(t\)-jakauman taulukosta, joten etsitään sen sijaan luvulle \(-t_2\) arvio tiedon \(F(-t_2) = 1 - F(t_2) = 0.99\) avulla. Taulukosta luetaan, että \(-t_2 \approx 2.552\), joten \(t_2 \approx -2.552\).

Matlabilla laskettaessa käytetään komentoa

   t = tinv([0.95 0.01], 18) % Matlab

etsimään vektori \(t=[t_1,t_2]\). R:llä samaan tulokseen päästään komennoilla

   qt(0.95, 18) # t1
   qt(0.01, 18) # t2

Studentin \(t\)-jakaumaa tarvitaan normaalijakautuneeksi oletetun satunnaismuuttujan odotusarvon estimoinnissa, kun varianssi on tuntematon. Perusteluina toimivat seuraavat kaksi lausetta, joista ensimmäinen antaa perusteen sille, miten t-jakautunut satunnaismuuttuja muodostuu.

Lause 5.5.6

Olkoot muuttujat \(Z\sim\rN(0,1)\) ja \(W\sim\chi^2(n)\) riippumattomia. Tällöin satunnaismuuttuja

\[T=\frac{Z}{\sqrt{W/n}} \sim t(n).\]

Lause 5.5.7

Jos \(X_1,X_2,\ldots,X_n\) on otos muuttujasta \(X\sim\rN(\mu,\sigma^2)\), niin

\[T=\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1).\]

Piilota/näytä todistus

Riittää todeta, että

\[T = \frac{U}{\sqrt{W/(n - 1)}},\]

missä satunnaismuuttujat \(U = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}} \sim \rN(0, 1)\) ja \(W = \frac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1)\) ovat riippumattomia, jolloin väite seuraa edellisestä lauseesta.

Valitaan sitten odotusarvon estimoinnin luottamustasoksi \(1-\alpha\). Tällöin \(t\)-jakaumasta voidaan määrittää luku \(t_{\alpha/2}\), jolle \(P(T>t_{\alpha/2})=\frac{\alpha}{2}\). \(t\)-jakauma on symmetrinen origon suhteen, joten myös \(P(T<-t_{\alpha/2})=\frac{\alpha}{2}\alpha/2\), ja tällöin

\[P\left(-t_{\alpha/2}<\frac{\overline{X}-\mu}{S/\sqrt{n}}<t_{\alpha/2}\right)=1-\alpha.\]

Ratkaisemalla odotusarvo \(\mu\) samaan tapaan kuin aikaisemmin nähdään, että

\[P\left(\overline{X}-t_{\alpha/2}\frac{S}{\sqrt{n}} < \mu < \overline{X}+t_{\alpha/2}\frac{s}{\sqrt{n}}\right) = 1-\alpha.\]

Lause 5.5.8

Olkoon \(X_1,X_2,\ldots,X_n\) otos satunnaismuuttujasta \(X\sim\mathrm{N}(\mu, \sigma^2)\), jonka varianssi on tuntematon. Tällöin odotusarvon \(\mu\) \(100(1-\alpha)~\%\):n väliestimaattori on

\[\left[\overline{X}-t_{\alpha/2}\frac{S}{\sqrt{n}},\ \overline{X}+t_{\alpha/2}\frac{S}{\sqrt{n}}\right],\]

missä \(t_{\alpha/2}\) toteuttaa ehdon \(P(T \leq t_{\alpha/2}) = 1 - \frac{\alpha}{2}\), kun \(T \sim t(n - 1)\). Jos otoskeskiarvolle realisoituu arvo \(\overline{x}\) ja otosvarianssille arvo \(s^2\), niin odotusarvon \(100(1 - \alpha)~\%\):n luottamusväli on

\[\left[\overline{x}-t_{\alpha/2}\frac{s}{\sqrt{n}},\ \overline{x}+t_{\alpha/2}\frac{s}{\sqrt{n}}\right].\]

Hyvin suurilla otoksilla luottamusvälin määritykseen käytettävän \(t\)-jakauman vapausasteluku \(n-1\) on myös suuri, ja tällöin \(t\)-jakauma on lähellä standardinormaalijakaumaa \(\mathrm{N}(0,1)\). Samoin otosvarianssi harhattomana varianssin piste-estimaattina tarkentuu kohti todellista tuntematonta varianssia. Tämän vuoksi odotusarvon luottamusvälien kaavoissa esiintyvät luvut \(z_{\alpha/2}\) ja \(t_{\alpha/2}\) ovat lähellä toisiaan, kun otoskoko on hyvin suuri. Esimerkiksi \(95~\%\):n luottamusväleille \(z_{\alpha/2} \approx 1.9600\) ja otoskoolla \(n=100\) laskettu \(t_{\alpha/2} \approx 1.9840\).

Esimerkki 5.5.9

Liikenteen nopeusvalvonnassa mitattiin \(n=31\) auton nopeus (km/h) \(10\) minuutin aikana. Otoskeskiarvoksi saatiin \(\overline{x}=97.4\) ja otosvarianssiksi \(s^2=98.0\). Laske keskinopeuden \(95~\%\):n luottamusväli.

Kun luottamustaso on \(95~\%\), niin \(\alpha = 1 - 0.95 = 0.05\). Luottamusvälin kaavassa

\[\left[\overline{x}-t_{\alpha/2}\frac{s}{\sqrt{n}}, \overline{x}+t_{\alpha/2}\frac{s}{\sqrt{n}}\right]\]

esiintyvä arvo \(t_{\alpha/2} \approx 2.042\) saadaan taulukosta vapausastelukua \(31 - 1 = 30\) vastaavalta riviltä, Matlabilla komennolla tinv(1 - 0.05/2, 30) tai R-ohjelmiston komennolla qt(1 - 0.05/2, 30). Sijoitetaan luottamusvälin kaavaan otoksesta lasketut arvot \(\overline{x}\) ja \(s^2\), jolloin luottamusväliksi saadaan

\[\left[97.4-2.042 \cdot \frac{\sqrt{98.0}}{\sqrt{31}}, 97.4+2.042 \cdot \frac{\sqrt{98.0}}{\sqrt{31}}\right] \approx [93.77,101.03].\]

Matlabilla luottamusvälin saa käyttämällä kaavaa ja annettuja arvoja

   97.4+tinv([0.025, 0.975], 30)*sqrt(98.0)/sqrt(31)

Vastaavasti R:llä:

   97.4+qt(0.025,30)*sqrt(98.0)/sqrt(31) # alaraja
   97.4+qt(0.975,30)*sqrt(98.0)/sqrt(31) # yläraja

Oikea keskinopeus \(\mu\) jää edelleen tuntemattomaksi. Tämä luottamusväli tulee tulkita siten, että jos vastaava nopeusvalvontakoe toistettaisiin lukuisia kertoja, niin todellinen nopeuden odotusarvo sisältyisi \(95~\%\):iin näistä luottamusväleistä.

Esimerkki 5.5.10

Jos luottamusväli lasketaan suoraan havaintoaineistosta, voidaan ohjelmilla ensin laskea otoskeskiarvo, otoskeskihajonta ja otoskoko ja sitten toistaa edellä olevat laskut. Kun käsiteltävän muuttujan arvot on tallennettu pystyvektoriksi data, niin \(95~\%\):n luottamusväli saadaan Matlabilla

   m = mean(data)
   sd = std(data)
   n = length(data)
   ci = m+tinv([0.025, 0.975], n-1)*sd/sqrt(n)

Otoskeskiarvon luottamusvälin saa myös valmiin Matlab-funktion normfit avulla. Funktion antaa vastauksena otoskeskiarvon, otoshajonnan ja niiden luottamusvälit. Esimerkiksi

   [muHat,sigmaHat,muCI,sigmaCI] = normfit(data,0.05)

R:llä luottamusvälin saa samalla tavalla laskien ensin tunnusluvut

   m <- mean(data)
   sd <- sd(data)
   n <- length(data)
   ciala <- m+qt(0.025, n-1)*sd/sqrt(n) # luottamusvälin alaraja
   ciyla <- m+qt(0.975, n-1)*sd/sqrt(n) # luottamusvälin ayläraja

Otoskeskiarvon ja luottamusvälin saa myös valmiin R-funktion avulla seuraavasti. Tämä funktio löytyy mosaic-paketista, joka täytyy asentaa koneelle ennen ensimmäistä käyttökertaa komennolla install.packages("mosaic"). Jokaisen istunnon aluksi paketti otetaan käyttöön komennolla library(mosaic), jonka jälkeen kaikki paketin funktiot ovat käytettävissä. Paketissa on mm. funktio t.test, joka suorittaa odotusarvon yhtäsuuruuteen liittyviä tilastollisia testejä. Komennolla

   t.test(data, conf.level = 0.95)

saadaan tuloksia, jotka sisältävät mm. otoskeskiarvon ja sen 95% luottamusvälin.

Esimerkki 5.5.11

Otantatutkimusta suunniteltaessa joudutaan usein pohtimaan, kuinka suuri otos tulisi valita halutun tarkkuuden saavuttamiseksi. Oletetaan, että tutkittava asia on jonkin normaalijakautuneen satunnaismuuttujan odotusarvo, jonka varianssi on tunnettu. Yksi mahdollinen kriteeri halutulle tarkkuudelle on käyttää luottamusvälin puolikasta \(z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\), jota sanotaan estimointivirheeksi. Kun halutaan, että estimointivirhe on korkeintaan \(a\), tulee otoskoko \(n\) valita siten, että

\[z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\leq a,\]

eli

\[n\geq \left(\frac{z_{\alpha/2}\sigma}{a}\right)^2.\]

Nestemäisten näytteiden sinkkipitoisuuden (g/ml) oletetaan noudattavan normaalijakaumaa \(\rN(\mu, 0.3^2)\). Käytetään \(95~\%\):n luottamustasoa, jolloin \(z_{\alpha/2} \approx 1.960\). Jos halutaan, että estimointivirhe odotusarvon estimoinnissa on korkeintaan \(0.05\) g/ml, otoskoon on oltava vähintään

\[\left(\dfrac{z_{\alpha/2}\,\sigma}{a}\right)^2 = \left(\dfrac{1.960\cdot 0.3}{0.05}\right)^2=138.2976,\]

eli \(n \geq 139\).