# Otosvarianssi¶

Satunnaismuuttujan vaihtelua kuvaavat tärkeimmät otossuureet ovat otosvarianssi ja otoskeskihajonta.

Määritelmä 6.3.1

Olkoon $$X_1,X_2,\ldots,X_n$$ otos satunnaismuuttujasta $$X$$. Satunnaismuuttujan $$X$$ otosvarianssi (sample variance) on satunnaismuuttuja

$S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2,$

ja otoshajonta (sample standard deviation) $$S=\sqrt{S^2}$$. Näiden satunnaismuuttujien realisoituneita arvoja (reaalilukuja) merkitään

$s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$

ja $$s=\sqrt{s^2}$$.

Satunnaismuuttujan $$X$$ otosvarianssi on sen varianssin harhaton estimaattori.

Lause 6.3.2

Olkoon $$X_1,X_2,\ldots,X_n$$ otos satunnaismuuttujasta $$X$$. Muuttujan $$X$$ otosvarianssi $$S^2$$ on sen varianssin $$\sigma^2$$ harhaton estimaattori, eli

$\rE(S^2)=\Var(X)=\sigma^2.$
Todistus

Koska muuttujat $$X_i$$, $$i = 1, 2, \ldots, n$$ muodostavat otoksen satunnaismuuttujasta $$X$$, on oltava $$\rE(X_i) = \rE(X) = \mu$$ ja $$\Var(X_i) = \Var(X) = \sigma^2$$. Väite seuraa odotusarvon lineaarisuudesta, kun otosvarianssin lausekkeessa merkitään $$X_i - \overline{X} = (X_i - \mu) - (\overline{X} - \mu)$$ ja $$\sum\limits_{i = 1}^{n}X_i = n\overline{X}$$:

\begin{split}\begin{aligned} \rE(S^2) &= \rE\left(\frac{1}{n - 1}\sum_{i = 1}^n(X_i - \overline{X})^2\right) = \rE\left(\frac{1}{n - 1} \sum_{i = 1}^n\left((X_i - \mu) - (\overline{X} - \mu)\right)^2\right) \\ &= \rE\left(\frac{1}{n - 1}\sum_{i = 1}^n \left((X_i - \mu)^2 - 2(X_i - \mu)(\overline{X} - \mu) + (\overline{X} - \mu)^2\right)\right) \\ &= \frac{1}{n - 1}\rE\left(\sum_{i = 1}^n(X_i - \mu)^2 - 2(\overline{X} - \mu)\sum_{i = 1}^n(X_i - \mu) + \sum_{i = 1}^n(\overline{X} - \mu)^2\right) \\ &= \frac{1}{n - 1}\rE\left(\sum_{i = 1}^n(X_i - \mu)^2 - 2(\overline{X} - \mu)(n\overline{X} - n\mu) + n(\overline{X} - \mu)^2\right) \\ &= \frac{1}{n - 1}\rE\left(\sum_{i = 1}^n(X_i - \mu)^2 - n(\overline{X} - \mu)^2 \right) = \frac{1}{n - 1}\left(\sum_{i = 1}^nE\left((X_i - \mu)^2\right) - n\rE\left((\overline{X} - \mu)^2\right)\right) \\ &= \frac{1}{n - 1}\left(\sum_{i = 1}^n\Var(X_i) - n\Var(\overline{X})\right) = \frac{1}{n - 1}\left(n\sigma^2 - n\frac{\sigma^2}{n}\right) = \sigma^2. \end{aligned}\end{split}

Tässä lauseessa on syy siihen, miksi otosvarianssin määritelmässä nimittäjään kirjoitetaan $$n-1$$ eikä $$n$$.

Tutkitaan sitten otosvarianssin jakaumaa. Normaalijakautuneiden satunnaismuuttujien muunnoksina saadaan eräitä uusia jakaumia, joita käytetään erityisesti tilastollisessa testaamisessa useiden testisuureiden jakaumina. Ensimmäisenä niistä määritellään $$\chi^2$$-jakauma.

Määritelmä 6.3.3

Jatkuva satunnaismuuttuja $$W$$ noudattaa $$\chi^2$$-jakaumaa vapausastein $$n$$ ($$\chi^2$$ distribution with $$n$$ degrees of freedom), $$W \sim \chi^2(n)$$, jos sen tiheysfunktio

$f(x) = \frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}x^{\frac{n}{2} - 1}e^{-\frac{x}{2}}, \qquad\text{kun } x \in \Omega = [0, \infty),$

missä $$\Gamma(t) = \int_{0}^{\infty}e^{-x}x^{t - 1}\,\rd x$$ on Eulerin gammafunktio.

Laskuja varten satunnaismuuttujan $$W \sim \chi^2(n)$$ kertymäfunktion $$F(t)=P(W \leq t)$$ ja sen käänteisfunktion arvoja on kerätty liitetaulukkoon eri vapausasteluvuilla. Monissa ohjelmissa on lisäksi valmiita funktioita arvojen laskemiseen.

Esimerkki 6.3.4

Oletetaan, että $$W\sim\chi^2(14)$$, ja etsitään ei-negatiiviset luvut $$w_1$$ ja $$w_2$$, joille $$P(W \leq w_1) = 0{,}1$$ ja $$P(W \geq w_2) = 0{,}1$$. Taulukossa valitaan ensin vapausastelukua $$14$$ vastaava rivi, ja luetaan sitten, että $$P(W \leq w_1) = 0{,}1 = 1 - 0{,}9$$, kun $$w_1 \approx 7{,}790$$. Vastaavasti luvusta $$w_2$$ päätellään ensin, että $$P(W < w_2) = 1 - 0{,}1 = 0{,}9$$, joten $$w_2 \approx 21{,}064$$.

w = chi2inv([0.1 0.9], 14);


etsimään vektori w, jonka alkiot ovat $$w_1$$ ja $$w_2$$ tässä järjestyksessä. Vastaava R-komento on

qchisq(0.1, 14), qchisq(0.9, 14)


joita erikseen käyttämällä saadaan samat arvot luvuille $$w_1$$ ja $$w_2$$.

Lause 6.3.5

Satunnaismuuttujan $$W\sim\chi^2(n)$$ odotusarvo ja varianssi ovat

$E(W)=n\qquad\text{ja}\qquad\mathrm{Var}(W)=2n$
Todistus
Harjoitustehtävänä. Hyödynnä odotusarvon määritelmää, osittaisintegrointia ja varianssille kehitettyä kaavaa.

$$\chi^2$$-jakauman hyödyllisyys otosvarianssin kannalta käy ilmi seuraavien lauseiden myötä. Niiden todistukset sivuutetaan.

Lause 6.3.6

Oletetaan, että satunnaismuuttujat $$Z_i \sim \rN(0, 1)$$, $$i=1,2,\ldots,n$$ ovat riippumattomia. Tällöin niiden neliösumma

$W = \sum_{i = 1}^nZ_i^2 = Z_1^2 + Z_2^2 + \cdots + Z_n^2 \sim \chi^2(n).$

Lause 6.3.7

Jos satunnaismuuttujat $$W_1 \sim \chi^2(n)$$ ja $$W_2 \sim \chi^2(m)$$ ovat riippumattomia, sekä

$W_1=\sum_{i=1}^n Z_i^2\qquad\text{ja}\qquad W_2=\sum_{i=1}^m U_i^2$

joillekin satunnaismuuttujille $$Z_1, Z_2, \ldots, Z_n$$ ja $$U_1, U_2, \ldots, U_m$$, niin silloin muuttujat $$Z_1, \ldots, Z_n, U_1, \ldots, U_m$$ ovat riippumattomia ja siten

$W_1 + W_2 \sim \chi^2(n+m).$

Jos satunnaismuuttujan $$W$$ tiheysfunktio on

$f(x) = \frac{1}{\sqrt{2^3}}\frac{\sqrt{x}e^{-x/2}}{\int_{0}^{\infty}e^{-t}\sqrt{t}\,\rd t},$

niin se noudattaa $$\chi^2$$-jakaumaa.

Mikä on muuttujan $$W$$ jakauman vapausasteluku?
Mikä on muuttujan $$W$$ odotusarvo?
Mikä on muuttujan $$W$$ varianssi?
Satunnaismuuttujat $$W_1 \sim \chi^2(n)$$ ja $$W_2 \sim \chi^2(m)$$ ovat riippumattomia, sekä löydetään satunnaismuuttujat $$Z_1, Z_2, \ldots, Z_n$$ ja $$U_1, U_2, \ldots, U_m$$, joille $$W_1=\sum_{i=1}^n Z_i^2$$ ja $$W_2=\sum_{i=1}^m U_i^2$$. Tällöin

Olkoon $$X_1, X_2, \ldots, X_n$$ nyt otos satunnaismuuttujasta $$X\sim\rN(\mu, \sigma^2)$$. Muuttujan $$X$$ otosvarianssin $$S^2$$ jakauman sijaan tutkitaan otossuureen

$\frac{(n - 1)S^2}{\sigma^2} = \frac{1}{\sigma^2}\sum_{i = 1}^n(X_i - \overline{X})^2 = \sum_{i = 1}^{n}\left(\frac{X_i - \overline{X}}{\sigma}\right)^2$

jakaumaa.

Lause 6.3.8

Jos $$X_1,X_2,\ldots,X_n$$ on otos muuttujasta $$X\sim\mathrm{N}(\mu,\sigma^2)$$, niin

1. $$\overline{X}$$ ja $$S^2$$ ovat riippumattomia,
2. otossuure $$\dfrac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1)$$.
Todistus

Ensimmäisen kohdan todistus sivuutetaan, ja toisesta kohdasta hahmotellaan todistuksen idea. Koska voidaan kirjoittaa

$\frac{(n - 1)S^2}{\sigma^2} = \sum_{i = 1}^{n}\left(\frac{X_i - \mu}{\sigma}\right)^2 - \left(\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\right)^2,$

päätellään että

$\sum_{i = 1}^{n}\left(\frac{X_i - \mu}{\sigma}\right)^2 = \frac{(n - 1)S^2}{\sigma^2} + \left(\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\right)^2,$

missä $$\sum\limits_{i = 1}^{n}\left(\frac{X_i - \mu}{\sigma}\right)^2 \sim \chi^2(n)$$ ja $$\left(\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\right)^2 \sim \chi^2(1)$$. Edellisen lauseen perusteella kahden riippumattoman $$\chi^2$$-jakautuneen muuttujan summa on $$\chi^2$$-jakautunut, ja vapausasteiden lukumäärät yhtälön molemmin puolin täsmäävät, jos $$\frac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1)$$.

Tätä tulosta tarvitaan varianssin luottamusvälin määrittämisessä.

