$\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \renewcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bbf}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-10mu}\,#1}^{\,#2}} \newcommand{\qedhere}{}$

# Keskeinen raja-arvolause¶

Keskeinen raja-arvolause (central limit theorem) antaa perustelut sille, miksi normaalijakaumaa käytetään laajasti tilastotieteessä estimointiin ja hypoteesien testaamiseen. Lause sanoo, että riippumattomien satunnaismuuttujien summan jakauma lähestyy normaalijakaumaa, kun yhteenlaskettavien lukumäärä kasvaa. Merkille pantavaa on, että tämä normaalijakauman lähestyminen tapahtuu, olivatpa yhteenlaskettavien jakaumat (eräitä vaatimattomia rajoituksia lukuunottamatta) millaisia tahansa, diskreettejä tai jatkuvia. Seuraavassa annetaan keskeinen raja-arvolause sen yksinkertaisimmassa muodossa.

Lause 5.2.1 (Keskeinen raja-arvolause)

Olkoon $$X_1,X_2,\ldots,X_n$$ otos satunnaismuuttujasta $$X$$, jonka odotusarvo on $$\mu$$ ja varianssi $$\sigma^2$$. Tällöin standardoidun otoskeskiarvon

$\overline{X}^{*} = \frac{\overline{X}-\rE(\overline{X})}{\sqrt{\Var(\overline{X})}} = \frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$

kertymäfunktio

$F(t)=P(\overline{X}^*\leq t)\to\Phi(t),$

kun $$n\to\infty$$, missä $$\Phi(t)$$ on standardinormaalijakauman $$\rN(0, 1)$$ kertymäfunktio.

Käytännön tehtävissä keskeistä raja-arvolausetta sovelletaan seuraavassa muodossa.

Lause 5.2.2

Olkoon $$X_1, X_2, \ldots, X_n$$ otos satunnaismuuttujasta $$X$$, jonka odotusarvo on $$\mu$$ ja varianssi $$\sigma^2$$. Jos $$n$$ on suuri, niin standardoitu otoskeskiarvo $$\overline{X}^*$$ noudattaa likimain standardinormaalijakaumaa,

$\overline{X}^*\stackrel{.}{\sim}\rN(0,1).$

Huomaa pisteellä varustettu merkintä, jolla erotetaan likimain noudattaminen täsmällisestä jakauman noudattamisesta.

Tällä niin sanotulla normaaliapproksimaatiolla saadaan hyviä arvioita yleensä silloin, kun $$n\geq 30$$ ja muuttujan $$X$$ jakauma minkälainen tahansa. Jos muuttujan $$X$$ jakauman tiedetään olevan jo valmiiksi lähellä normaalijakaumaa, niin normaaliapproksimaatio soveltuu jo arvoa $$n=30$$ pienemmille otoksille. Jos $$X$$ on normaalijakautunut, niin otoskeskiarvo on lauseen 5.1.6 mukaan täsmälleen normaalijakautunut, eikä normaaliapproksimaatiota tarvita.

Keskeisen raja-arvolauseen sisältö voidaan ilmaista vieläkin helpommin sovellettavassa muodossa.

Seuraus 5.2.3

Olkoon $$X_1,X_2,\dots,X_n$$ otos satunnaismuuttujasta $$X$$, jonka odotusarvo on $$\mu$$ ja varianssi $$\sigma^2$$. Tällöin otoskeskiarvo

$\overline{X} \stackrel{.}{\sim} \rN\left(\mu, \frac{\sigma^2}{n}\right)$

ja otoksen summa

$\sum_{i = 1}^{n}X_i \stackrel{.}{\sim} \rN(n\mu, n\sigma^2).$
Keskeinen raja-arvolause kertoo, että yhteenlaskettavien lukumäärän kasvaessa riippumattomien satunnaismuuttujien summan jakauma lähestyy
Olkoon $$X_1,X_2,\dots,X_n$$ otos satunnaismuuttujasta $$X$$, jonka odotusarvo on $$\mu$$ ja varianssi $$\sigma^2$$. Tällöin otoskeskiarvo
Olkoon $$X_1,X_2,\dots,X_n$$ otos satunnaismuuttujasta $$X$$, jonka odotusarvo on $$\mu$$ ja varianssi $$\sigma^2$$. Tällöin otoksen summa

Esimerkki 5.2.4

Hissin varoitustaulun mukaan se voi kuljettaa korkeintaan $$25$$ henkilöä tai $$2000$$ kilogrammaa. Henkilöpaino (kg) on satunnaismuuttuja, jonka odotusarvoksi oletetaan $$\mu=74$$ ja varianssiksi $$\sigma^2=100$$. Millä todennäköisyydellä satunnaisesti valitun $$25$$ henkilön kokonaispaino ylittää $$2000$$ kg?

Näytä/piilota ratkaisu

Jos satunnaismuuttuja $$X$$ kuvaa yhteensä $$25$$ henkilön kokonaispainoa, niin keskeisen raja-arvolauseen nojalla

$X \stackrel{.}{\sim} \rN(25\cdot74,25\cdot100)=\rN(1850,2500).$

Täten

\begin{split}\begin{aligned} P(X>2000) &= 1-P(X\leq2000)= 1-P\left(\frac{X-1850}{\sqrt{2500}}\leq \frac{2000-1850}{\sqrt{2500}}\right)\\ &\approx 1-\Phi\left(\frac{2000-1850}{\sqrt{2500}}\right)=1-\Phi(3)\approx0{,}0013, \end{aligned}\end{split}

missä arvo $$\Phi(3)$$ voidaan laskea Matlabin komennolla normcdf(3) ja R-ohjelmiston komennolla pnorm(3), tai katsoa normaalijakauman taulukosta.

Esimerkki 5.2.5

Olkoon satunnaismuuttujan $$X$$ varianssi $$\sigma^2=25$$. Todennäköisyys sille, että $$n = 50$$ kappaleen otoksen otoskeskiarvo $$\overline{X}$$ poikkeaa muuttujan $$X$$ odotusarvosta $$\mu$$ vähemmän kuin $$2$$ yksikköä, on

\begin{split}\begin{aligned} P(|\overline{X}-\mu|<2) &= P(-2<\overline{X}-\mu<2) \\ &= P\left(\frac{-2}{\sigma/\sqrt{n}} < \frac{\overline{X} - \mu}{\sigma/\sqrt{n}} < \frac{2}{\sigma/\sqrt{n}}\right) \\ &\approx \Phi\left(\frac{2}{1/\sqrt{2}}\right)-\Phi\left(-\frac{2}{1/\sqrt{2}}\right) \\ &= 2\Phi(2\sqrt{2})-1 \\ &\approx 0{,}995, \end{aligned}\end{split}

sillä keskeisen raja-arvolauseen nojalla $$\frac{\overline{X} - \mu}{\sigma/\sqrt{n}} = \frac{\overline{X} - \mu}{1/\sqrt{2}} \stackrel{.}{\sim} \rN(0, 1)$$.

## Binomijakauman normaaliapproksimaatio¶

Oletetaan, että $$X\sim\Bin(n,p)$$, missä parametri $$p$$ on onnistumisen todennäköisyys $$n$$-toistokokeen yksittäisessä toistossa. Tällöin satunnaismuuttuja $$X$$ voidaan esittää summana $$X=Y_1+Y_2+\cdots+Y_n$$, missä muuttujat $$Y_i \sim \Ber(p) = \Bin(1, p)$$, $$i = 1, 2, \ldots, n$$ ovat riippumattomia. Siten $$Y_1,Y_2,\dots,Y_n$$ on otos muuttujasta $$Y\sim\mathrm{Bin}(1,p)$$, missä muuttujan $$Y$$ odotusarvo ja varianssi $$\mu = p$$ ja $$\sigma^2=p(1-p)$$. Keskeisen raja-arvolauseen seurauksena löydetään siis keino approksimoida binomijakaumaa normaalijakauman avulla.

Seuraus 5.2.6

Jos $$X \sim \Bin(n, p)$$, niin sen normaaliapproksimaationa

$X\stackrel{.}{\sim}\rN(np,np(1-p)).$

Huomautus 5.2.7

Jos $$p$$ on lähellä arvoa $$0$$ tai $$1$$, niin normaaliapproksimaatio saattaa antaa huonoja arvioita binomijakauman todennäköisyyksille. Jos taas $$p$$ on lähellä arvoa $$\frac{1}{2}$$, niin normaaliapproksimaatiolla saadaan hyviä arvioita jo pienillä arvoilla $$n$$. Ohjeena voidaan sanoa, että mikäli $$np\geq 5$$ ja $$n(1-p)\geq 5$$, niin normaaliapproksimaation arviot ovat käyttökelpoisia.

Diskreetin binomijakauman approksimoiminen jatkuvalla normaalijakaumalla sujuu suuremmalla tarkkuudella, kun suoritetaan niin sanottu jatkuvuuskorjaus. Siinä binomijakauman tapahtuman $$a \leq X \leq b$$ rajoiksi muutetaan normaalijakaumaan liittyvissä laskuissa ne reaaliluvut $$c$$ ja $$d$$, joiden lähimpään kokonaislukuun pyöristetyt arvot vielä sisältyvät välille $$[a, b]$$. Seuraavassa taulukossa on esimerkkejä jatkuvuuskorjauksista.

$\begin{split}\begin{array}{c c}\hline \text{jakauma } \Bin(n, p) & \text{jatkuvuuskorjattu, jakauma } \rN(np, np(1 - p)) \\\hline P(X \leq 3) & P(X \leq 3{,}5) \\ P(X < 3) = P(X \leq 2) & P(X \leq 2{,}5) \\ P(X \geq 4) & P(X \geq 3{,}5) \\ P(X > 4) = P(X \geq 5) & P(X \geq 4{,}5) \\\hline \end{array}\end{split}$
Voisiko binomijakaumaa approksimoida normaalijakauman avulla
Jos $$X\sim \Bin(100,0{,}2)$$, niin
Fysiikan labrassa tapahtuu mittausvirheitä. Tehdään mittaus, jossa otetaan $$100$$ otosta. Mittausvirheiden summan voidaan olettaa noudattavan likimain normaalijakaumaa.

Esimerkki 5.2.8

Heitetään kolikkoa $$900$$ kertaa, jolloin kruunujen esiintymismäärä on satunnaismuuttuja $$X\sim\Bin(900, 0{,}5)$$. Normaaliapproksimoituna $$X\stackrel{.}{\sim}\rN(450,225)$$. Todennäköisyys sille, että kruunujen lukumäärä on yli 495, $$P(X>495)$$, on jatkuvuuskorjauksella korjattuna

\begin{split}\begin{aligned} P(X>495{,}5) &= 1-P(X\leq 495{,}5) \\ &\approx 1-\Phi\left(\frac{495{,}5-450}{\sqrt{225}}\right) \\ &= 1-\Phi(3{,}03) \\ &= 0{,}0012. \end{aligned}\end{split}

Huomautus 5.2.9

Keskeisestä raja-arvolauseesta on vielä edellä esitettyjä paljon yleisempi versio. Olkoon $$X_1,X_2,\ldots$$ päättymätön jono riippumattomia satunnaismuuttujia, joiden jakaumista tiedetään vain odotusarvot $$\mu_1,\mu_2,\ldots$$ ja varianssit $$\sigma_1^2,\sigma_2^2,\ldots$$. Määritellään tähän jonoon liittyvät satunnaismuuttujat $$Y_n$$, $$n \in \rN$$ summina

$Y_n=X_1+X_2+\cdots+X_n,$

jolloin

\begin{split}\begin{aligned} \rE(Y_n) &= \mu_1+\mu_2+\cdots+\mu_n = \mu_{Y_n} \\ \Var(Y_n) &= \sigma_1^2+\sigma_2^2+\cdots+\sigma_n^2 = \sigma_{Y_n}^2. \end{aligned}\end{split}

Jos $$n \to \infty$$, niin varsin yleisin oletuksin standardoidun satunnaismuuttujan

$Y_n^*=\frac{Y_n - \mu_{Y_n}}{\sigma_{Y_n}}$

kertymäfunktio lähenee standardinormaalijakauman $$\rN(0,1)$$ kertymäfunktiota. Suurilla indeksin $$n$$ arvoilla voidaan tehdä normaaliapproksimaatio $$Y_n^*\stackrel{.}{\sim}\rN(0,1)$$, ja tällöin

$Y_n=X_1+X_2+\cdots+X_n\stackrel{.}{\sim}\rN(\mu_{Y_n},\sigma_{Y_n}^2).$

Tässä on teoreettinen selitys sille, että mittausvirheet jakautuvat likimain normaalisti: mittausvirhe on lukuisten pienten satunnaisvirheiden summa.

Palautusta lähetetään...