- MAT-01530
- 6. Otosjakaumat ja estimointi
- 6.3 Otosvarianssi
Otosvarianssi¶
Satunnaismuuttujan vaihtelua kuvaavat tärkeimmät otossuureet ovat otosvarianssi ja otoskeskihajonta.
Määritelmä 6.3.1
Olkoon X_1,X_2,\ldots,X_n otos satunnaismuuttujasta X. Satunnaismuuttujan X otosvarianssi (sample variance) on satunnaismuuttuja
ja otoshajonta (sample standard deviation) S=\sqrt{S^2}. Näiden satunnaismuuttujien realisoituneita arvoja (reaalilukuja) merkitään
ja s=\sqrt{s^2}.
Satunnaismuuttujan X otosvarianssi on sen varianssin harhaton estimaattori.
Lause 6.3.2
Olkoon X_1,X_2,\ldots,X_n otos satunnaismuuttujasta X. Muuttujan X otosvarianssi S^2 on sen varianssin \sigma^2 harhaton estimaattori, eli
Koska muuttujat X_i, i = 1, 2, \ldots, n muodostavat otoksen satunnaismuuttujasta X, on oltava \rE(X_i) = \rE(X) = \mu ja \Var(X_i) = \Var(X) = \sigma^2. Väite seuraa odotusarvon lineaarisuudesta, kun otosvarianssin lausekkeessa merkitään X_i - \overline{X} = (X_i - \mu) - (\overline{X} - \mu) ja \sum\limits_{i = 1}^{n}X_i = n\overline{X}:
Tässä lauseessa on syy siihen, miksi otosvarianssin määritelmässä nimittäjään kirjoitetaan n-1 eikä n.
Tutkitaan sitten otosvarianssin jakaumaa. Normaalijakautuneiden satunnaismuuttujien muunnoksina saadaan eräitä uusia jakaumia, joita käytetään erityisesti tilastollisessa testaamisessa useiden testisuureiden jakaumina. Ensimmäisenä niistä määritellään \chi^2-jakauma.
Määritelmä 6.3.3
Jatkuva satunnaismuuttuja W noudattaa \chi^2-jakaumaa vapausastein n (\chi^2 distribution with n degrees of freedom), W \sim \chi^2(n), jos sen tiheysfunktio
missä \Gamma(t) = \int_{0}^{\infty}e^{-x}x^{t - 1}\,\rd x on Eulerin gammafunktio.
Laskuja varten satunnaismuuttujan W \sim \chi^2(n) kertymäfunktion F(t)=P(W \leq t) ja sen käänteisfunktion arvoja on kerätty liitetaulukkoon eri vapausasteluvuilla. Monissa ohjelmissa on lisäksi valmiita funktioita arvojen laskemiseen.
Esimerkki 6.3.4
Oletetaan, että W\sim\chi^2(14), ja etsitään ei-negatiiviset luvut w_1 ja w_2, joille P(W \leq w_1) = 0{,}1 ja P(W \geq w_2) = 0{,}1. Taulukossa valitaan ensin vapausastelukua 14 vastaava rivi, ja luetaan sitten, että P(W \leq w_1) = 0{,}1 = 1 - 0{,}9, kun w_1 \approx 7{,}790. Vastaavasti luvusta w_2 päätellään ensin, että P(W < w_2) = 1 - 0{,}1 = 0{,}9, joten w_2 \approx 21{,}064.
Matlabilla laskettaessa voidaan käyttää komentoa
w = chi2inv([0.1 0.9], 14);
etsimään vektori w
, jonka alkiot ovat w_1 ja w_2 tässä järjestyksessä. Vastaava R-komento on
qchisq(0.1, 14), qchisq(0.9, 14)
joita erikseen käyttämällä saadaan samat arvot luvuille w_1 ja w_2.
Lause 6.3.5
Satunnaismuuttujan W\sim\chi^2(n) odotusarvo ja varianssi ovat
\chi^2-jakauman hyödyllisyys otosvarianssin kannalta käy ilmi seuraavien lauseiden myötä. Niiden todistukset sivuutetaan.
Lause 6.3.6
Oletetaan, että satunnaismuuttujat Z_i \sim \rN(0, 1), i=1,2,\ldots,n ovat riippumattomia. Tällöin niiden neliösumma
Lause 6.3.7
Jos satunnaismuuttujat W_1 \sim \chi^2(n) ja W_2 \sim \chi^2(m) ovat riippumattomia, sekä
joillekin satunnaismuuttujille Z_1, Z_2, \ldots, Z_n ja U_1, U_2, \ldots, U_m, niin silloin muuttujat Z_1, \ldots, Z_n, U_1, \ldots, U_m ovat riippumattomia ja siten
Olkoon X_1, X_2, \ldots, X_n nyt otos satunnaismuuttujasta X\sim\rN(\mu, \sigma^2). Muuttujan X otosvarianssin S^2 jakauman sijaan tutkitaan otossuureen
jakaumaa.
Lause 6.3.8
Jos X_1,X_2,\ldots,X_n on otos muuttujasta X\sim\mathrm{N}(\mu,\sigma^2), niin
- \overline{X} ja S^2 ovat riippumattomia,
- otossuure \dfrac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1).
Ensimmäisen kohdan todistus sivuutetaan, ja toisesta kohdasta hahmotellaan todistuksen idea. Koska voidaan kirjoittaa
päätellään että
missä \sum\limits_{i = 1}^{n}\left(\frac{X_i - \mu}{\sigma}\right)^2 \sim \chi^2(n) ja \left(\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\right)^2 \sim \chi^2(1). Edellisen lauseen perusteella kahden riippumattoman \chi^2-jakautuneen muuttujan summa on \chi^2-jakautunut, ja vapausasteiden lukumäärät yhtälön molemmin puolin täsmäävät, jos \frac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1).
Tätä tulosta tarvitaan varianssin luottamusvälin määrittämisessä.