Processing math: 0%
Tämä kurssi on jo päättynyt.
\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \renewcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bbf}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-10mu}\,#1}^{\,#2}} \newcommand{\qedhere}{}

Odotusarvon luottamusväli

Olkoon X_1,X_2,\ldots,X_n otos satunnaismuuttujasta X\sim\rN(\mu,\sigma^2), jonka varianssi tunnetaan. Tällöin otoskeskiarvo \overline{X} noudattaa normaalijakaumaa \rN\left(\mu, \frac{\sigma^2}{n}\right), ja edelleen

\frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim \rN(0,1).

Valitaan odotusarvon estimoinnin luottamustasoksi 1-\alpha, jolloin standardinormaalijakaumasta voidaan määrittää luku z_{\alpha/2}, jolle P(Z>z_{\alpha/2})=\frac{\alpha}{2}. Koska normaalijakauma on symmetrinen, myös P(Z<-z_{\alpha/2})=\frac{\alpha}{2}, ja täten

P\left(-z_{\alpha/2}<\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}<z_{\alpha/2}\right)=1-\alpha.

Tapahtumaksi kirjoitetusta epäyhtälöparista voidaan myös ratkaista estimoitavana oleva odotusarvo \mu, jolloin

P\left(\overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}} < \mu < \overline{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right) = 1-\alpha.

Lause 5.5.1

Olkoon X_1,X_2,\ldots,X_n otos satunnaismuuttujasta X\sim\rN(\mu,\sigma^2), jossa varianssi \sigma^2 tunnetaan. Tällöin odotusarvon \mu 100(1-\alpha)~\%:n väliestimaattori on

\left[\overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right],

missä \Phi(z_{\alpha/2})=1-\frac{\alpha}{2}. Jos otoskeskiarvolle realisoituu arvo \overline{x}, niin odotusarvon 100(1 - \alpha)~\%:n luottamusväli on

\left[\overline{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right].

Huomautus 5.5.2

Kun otoskoko on suuri, keskeisen raja-arvolauseen mukaan lähes mitä tahansa jakaumaa noudattavan satunnaismuuttujan otoskeskiarvo noudattaa normaalijakaumaa. Siksi edellistä lausetta voidaan käyttää myös muille kuin normaalijakautuneille satunnaismuuttujille suurilla otoksilla, kunhan varianssi \sigma^2 tunnetaan.

Esimerkki 5.5.3

Juomatölkkejä täyttävän koneen kerralla päästämän nesteen tilavuuden varianssin tiedetään olevan \sigma^2 = 9 neliömillilitraa. Yhteensä n = 50 toiston otoksessa tilavuuden otoskeskiarvoksi realisoitui \overline{x} = 325 millilitraa. Määritä täyttötilavuudelle 95~\% luottamusväli.

Näytä/piilota ratkaisu

Keskeisen raja-arvolauseen nojalla tilavuuden otoskeskiarvo noudattaa likimain normaalijakaumaa, joten luottamusväli on muotoa

\left[\overline{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right],

missä \sigma = 3 millilitraa ja \Phi(z_{\alpha/2}) = 1 - \frac{1}{2} \cdot (1 - 0{,}95) = 0{,}975. Ohjelmiston tai taulukon avulla selvitetään, että z_{\alpha/2} \approx 1{,}9600, jolloin kysytyksi luottamusväliksi saadaan

\left[325 - 1{,}9600 \cdot \frac{3}{\sqrt{50}}, 325 + 1{,}9600 \cdot \frac{3}{\sqrt{50}}\right] \approx [324{,}1685, 325{,}8315].\qedhere

Tavallisempi tilanne on kuitenkin, että satunnaismuuttuja voidaan olettaa normaalijakautuneeksi, mutta varianssia ei tunneta. Varianssille löydetään harhaton piste-estimaatti otosvarianssin

S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2

avulla, mutta koska kyseessä on satunnaismuuttuja, väliestimointiin vaikuttavat satunnaistekijät lisääntyvät, eikä otoskeskiarvo ole enää normaalijakautunut. Tuntemattoman varianssin tapauksessa väliestimoinnissa käytetäänkin (Studentin) t-jakaumaa.

Määritelmä 5.5.4

Jatkuva satunnaismuuttuja T noudattaa Studentin t-jakaumaa vapausastein n (Student’s t distribution with n degrees of freedom), T \sim t(n), jos sen tiheysfunktio

f(t) = \frac{1}{\sqrt{n\pi}}\frac{\Gamma\left(\frac{n + 1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{t^2}{n}\right)^{-\frac{n+1}{2}}, \qquad\text{kun } t \in \Omega = \R,

missä \Gamma(t) = \int_{0}^{\infty}e^{-x}x^{t - 1}\,\rd x on Eulerin gammafunktio.

Studentin t-jakaumaa noudattavan satunnaismuuttujan T tiheysfunktio on yksihuippuinen ja symmetrinen keskikohdan 0 suhteen. Se muistuttaa muodoltaan normaalijakaumaa \rN(0,1), ja voidaan osoittaa, että t-jakauma lähenee standardinormaalijakaumaa, kun vapausasteluku n\to\infty.

Liitetaulukoista tai valmisohjelmista (Matlab, R) löytyy satunnaismuuttujan T\sim t(n) kertymäfunktion F(t)=P(T\leq t) ja sen käänteisfunktion arvoja. Vastaavasti kuin normaalijakauman kanssa kertymäfunktion arvo negatiivisilla muuttujan t arvoilla selvitetään symmetrian nojalla: F(-t) = 1 - F(t).

Esimerkki 5.5.5

Oletetaan, että T \sim t(18) ja määrätään reaaliluvut t_1 ja t_2, joille P(|T| \leq t_1) = 0{,}9 ja P(T \leq t_2)=0{,}01. Ensimmäinen todennäköisyys

P(|T| \leq t_1) = P(-t_1 \leq T \leq t_1) = F(t_1) - F(-t_1) = 2F(t_1) - 1

symmetrian nojalla, kun F on jakauman t(18) kertymäfunktio. Näin päätellään, että F(t_1) = \frac{1}{2} \cdot (1 + 0{,}9) = 0{,}95, joten taulukon vapausastelukua 18 vastaavalta riviltä luetaan, että t_1 \approx 1{,}734. Todennäköisyyden arvoa 0{,}01 ei löydetä t-jakauman taulukosta, joten etsitään sen sijaan luvulle -t_2 arvio tiedon F(-t_2) = 1 - F(t_2) = 0{,}99 avulla. Taulukosta luetaan, että -t_2 \approx 2{,}552, joten t_2 \approx -2{,}552.

Matlabilla laskettaessa voitaisiin käyttää komentoa

t = tinv([0.95 0.01], 18);

etsimään vektori, jonka ensimmäinen komponentti on t_1 ja toinen t_2. Vastaavat erikseen käytettävät R-komennot ovat

qt(0.95, 18), qt(0.01, 18)

joilla päästään samaan tulokseen.

Studentin t-jakaumaa tarvitaan normaalijakautuneeksi oletetun satunnaismuuttujan odotusarvon estimoinnissa, kun varianssi on tuntematon. Perusteluina toimivat seuraavat kaksi lausetta, joista ensimmäisen todistus sivuutetaan.

Lause 5.5.6

Olkoot muuttujat Z\sim\rN(0,1) ja W\sim\chi^2(n) riippumattomia. Tällöin satunnaismuuttuja

T=\frac{Z}{\sqrt{W/n}} \sim t(n).

Lause 5.5.7

Jos X_1,X_2,\ldots,X_n on otos muuttujasta X\sim\rN(\mu,\sigma^2), niin

T=\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1).
Näytä/piilota todistus

Riittää todeta, että

T = \frac{U}{\sqrt{W/(n - 1)}},

missä satunnaismuuttujat U = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}} \sim \rN(0, 1) ja W = \frac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1) ovat riippumattomia, jolloin väite seuraa edellisestä lauseesta.

Valitaan sitten odotusarvon estimoinnin luottamustasoksi 1-\alpha. Tällöin t-jakaumasta voidaan määrittää luku t_{\alpha/2}, jolle P(T>t_{\alpha/2})=\frac{\alpha}{2}. t-jakauma on symmetrinen origon suhteen, joten myös P(T<-t_{\alpha/2})=\frac{\alpha}{2}\alpha/2, ja tällöin

P\left(-t_{\alpha/2}<\frac{\overline{X}-\mu}{S/\sqrt{n}}<t_{\alpha/2}\right)=1-\alpha.

Ratkaisemalla odotusarvo \mu samaan tapaan kuin aikaisemmin nähdään, että

P\left(\overline{X}-t_{\alpha/2}\frac{S}{\sqrt{n}} < \mu < \overline{X}+t_{\alpha/2}\frac{s}{\sqrt{n}}\right) = 1-\alpha.

Lause 5.5.8

Olkoon X_1,X_2,\ldots,X_n otos satunnaismuuttujasta X\sim\mathrm{N}(\mu, \sigma^2), jonka varianssi on tuntematon. Tällöin odotusarvon \mu 100(1-\alpha)~\%:n väliestimaattori on

\left[\overline{X}-t_{\alpha/2}\frac{S}{\sqrt{n}}, \overline{X}+t_{\alpha/2}\frac{S}{\sqrt{n}}\right],

missä t_{\alpha/2} toteuttaa ehdon P(T \leq t_{\alpha/2}) = 1 - \frac{\alpha}{2}, kun T \sim t(n - 1). Jos otoskeskiarvolle realisoituu arvo \overline{x} ja otosvarianssille arvo s^2, niin odotusarvon 100(1 - \alpha)~\%:n luottamusväli on

\left[\overline{x}-t_{\alpha/2}\frac{s}{\sqrt{n}}, \overline{x}+t_{\alpha/2}\frac{s}{\sqrt{n}}\right].

Hyvin suurilla otoksilla luottamusvälin määritykseen käytettävän t-jakauman vapausasteluku n-1 on myös suuri, ja tällöin t-jakauma on lähellä standardinormaalijakaumaa \mathrm{N}(0,1). Samoin otosvarianssi harhattomana varianssin piste-estimaattina tarkentuu kohti todellista tuntematonta varianssia. Tämän vuoksi odotusarvon luottamusvälien kaavoissa esiintyvät luvut z_{\alpha/2} ja t_{\alpha/2} ovat lähellä toisiaan, kun otoskoko on hyvin suuri. Esimerkiksi 95~\%:n luottamusväleille z_{\alpha/2} \approx 1{,}9600 ja otoskoolla n=100 laskettu t_{\alpha/2} \approx 1{,}9840.

Olkoot muuttujat Z\sim\rN(0,1) ja W\sim\chi^2(10) riippumattomia. Tällöin satunnaismuuttuja T=\frac{Z}{\sqrt{W/10}} noudattaa jakaumaa
William Sealy Gosset, joka julkaisi salanimella Student, ja joka teki Studentin t-jakauman tunnetuksi, työskenteli

Esimerkki 5.5.9

Liikenteen nopeusvalvonnassa mitattiin n=31 auton nopeus (km/h) 10 minuutin aikana. Otoskeskiarvoksi saatiin \overline{x}=97{,}4 ja otosvarianssiksi s^2=98{,}0. Laske keskinopeuden 95~\%:n luottamusväli.

Näytä/piilota ratkaisu

Kun luottamustaso on 95~\%, niin \alpha = 1 - 0{,}95 = 0{,}05. Luottamusvälin kaavassa

\left[\overline{x}-t_{\alpha/2}\frac{s}{\sqrt{n}}, \overline{x}+t_{\alpha/2}\frac{s}{\sqrt{n}}\right]

esiintyvä arvo t_{\alpha/2} \approx 2{,}042 saadaan taulukosta vapausastelukua 31 - 1 = 30 vastaavalta riviltä, tai esimerkiksi Matlabilla komennolla tinv(1 - 0.05/2, 30) (R-ohjelmiston komennolla qt(1 - 0.05/2, 30)). Sijoitetaan luottamusvälin kaavaan otoksesta lasketut arvot \overline{x} ja s^2, jolloin luottamusväliksi saadaan

\left[97{,}4-2{,}042 \cdot \frac{\sqrt{98{,}0}}{\sqrt{31}}, 97{,}4+2{,}042 \cdot \frac{\sqrt{98{,}0}}{\sqrt{31}}\right] \approx [93{,}77,101{,}03].

Oikea keskinopeus \mu jää edelleen tuntemattomaksi. Tämä luottamusväli tulee tulkita siten, että jos vastaava nopeusvalvontakoe toistettaisiin lukuisia kertoja, niin todellinen nopeuden odotusarvo sisältyisi 95~\%:iin näistä luottamusväleistä.

Esimerkki 5.5.10

Otantatutkimusta suunniteltaessa joudutaan usein pohtimaan, kuinka suuri otos tulisi valita halutun tarkkuuden saavuttamiseksi. Oletetaan, että tutkittava asia on jonkin normaalijakautuneen satunnaismuuttujan odotusarvo, jonka varianssi on tunnettu. Yksi mahdollinen kriteeri halutulle tarkkuudelle on käyttää luottamusvälin puolikasta z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, jota sanotaan estimointivirheeksi. Kun halutaan, että estimointivirhe on korkeintaan a, tulee otoskoko n valita siten, että

z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\leq a,

eli

n\geq \left(\frac{z_{\alpha/2}\sigma}{a}\right)^2.

Nestemäisten näytteiden sinkkipitoisuuden (g/ml) oletetaan noudattavan normaalijakaumaa \rN(\mu, 0{,}3^2). Käytetään 95~\%:n luottamustasoa, jolloin z_{\alpha/2} \approx 1{,}960. Jos halutaan, että estimointivirhe odotusarvon estimoinnissa on korkeintaan 0.05 g/ml, otoskoon on oltava vähintään

\left(\dfrac{z_{\alpha/2}\sigma}{a}\right)^2 = \left(\dfrac{1{,}960\cdot 0{,}3}{0{,}05}\right)^2=138{,}2976,

eli n \geq 139.

Palautusta lähetetään...