\[\newcommand{\N}{\mathbb N}
\newcommand{\Z}{\mathbb Z}
\newcommand{\Q}{\mathbb Q}
\newcommand{\R}{\mathbb R}
\newcommand{\C}{\mathbb C}
\newcommand{\ba}{\mathbf{a}}
\newcommand{\bb}{\mathbf{b}}
\newcommand{\bc}{\mathbf{c}}
\newcommand{\bd}{\mathbf{d}}
\newcommand{\be}{\mathbf{e}}
\newcommand{\bff}{\mathbf{f}}
\newcommand{\bh}{\mathbf{h}}
\newcommand{\bi}{\mathbf{i}}
\newcommand{\bj}{\mathbf{j}}
\newcommand{\bk}{\mathbf{k}}
\newcommand{\bN}{\mathbf{N}}
\newcommand{\bn}{\mathbf{n}}
\newcommand{\bo}{\mathbf{0}}
\newcommand{\bp}{\mathbf{p}}
\newcommand{\bq}{\mathbf{q}}
\newcommand{\br}{\mathbf{r}}
\newcommand{\bs}{\mathbf{s}}
\newcommand{\bT}{\mathbf{T}}
\newcommand{\bu}{\mathbf{u}}
\newcommand{\bv}{\mathbf{v}}
\newcommand{\bw}{\mathbf{w}}
\newcommand{\bx}{\mathbf{x}}
\newcommand{\by}{\mathbf{y}}
\newcommand{\bz}{\mathbf{z}}
\newcommand{\bzero}{\mathbf{0}}
\newcommand{\nv}{\mathbf{0}}
\newcommand{\cA}{\mathcal{A}}
\newcommand{\cB}{\mathcal{B}}
\newcommand{\cC}{\mathcal{C}}
\newcommand{\cD}{\mathcal{D}}
\newcommand{\cE}{\mathcal{E}}
\newcommand{\cF}{\mathcal{F}}
\newcommand{\cG}{\mathcal{G}}
\newcommand{\cH}{\mathcal{H}}
\newcommand{\cI}{\mathcal{I}}
\newcommand{\cJ}{\mathcal{J}}
\newcommand{\cK}{\mathcal{K}}
\newcommand{\cL}{\mathcal{L}}
\newcommand{\cM}{\mathcal{M}}
\newcommand{\cN}{\mathcal{N}}
\newcommand{\cO}{\mathcal{O}}
\newcommand{\cP}{\mathcal{P}}
\newcommand{\cQ}{\mathcal{Q}}
\newcommand{\cR}{\mathcal{R}}
\newcommand{\cS}{\mathcal{S}}
\newcommand{\cT}{\mathcal{T}}
\newcommand{\cU}{\mathcal{U}}
\newcommand{\cV}{\mathcal{V}}
\newcommand{\cW}{\mathcal{W}}
\newcommand{\cX}{\mathcal{X}}
\newcommand{\cY}{\mathcal{Y}}
\newcommand{\cZ}{\mathcal{Z}}
\newcommand{\rA}{\mathrm{A}}
\newcommand{\rB}{\mathrm{B}}
\newcommand{\rC}{\mathrm{C}}
\newcommand{\rD}{\mathrm{D}}
\newcommand{\rE}{\mathrm{E}}
\newcommand{\rF}{\mathrm{F}}
\newcommand{\rG}{\mathrm{G}}
\newcommand{\rH}{\mathrm{H}}
\newcommand{\rI}{\mathrm{I}}
\newcommand{\rJ}{\mathrm{J}}
\newcommand{\rK}{\mathrm{K}}
\newcommand{\rL}{\mathrm{L}}
\newcommand{\rM}{\mathrm{M}}
\newcommand{\rN}{\mathrm{N}}
\newcommand{\rO}{\mathrm{O}}
\newcommand{\rP}{\mathrm{P}}
\newcommand{\rQ}{\mathrm{Q}}
\newcommand{\rR}{\mathrm{R}}
\newcommand{\rS}{\mathrm{S}}
\newcommand{\rT}{\mathrm{T}}
\newcommand{\rU}{\mathrm{U}}
\newcommand{\rV}{\mathrm{V}}
\newcommand{\rW}{\mathrm{W}}
\newcommand{\rX}{\mathrm{X}}
\newcommand{\rY}{\mathrm{Y}}
\newcommand{\rZ}{\mathrm{Z}}
\newcommand{\pv}{\overline}
\newcommand{\iu}{\mathrm{i}}
\newcommand{\ju}{\mathrm{j}}
\newcommand{\im}{\mathrm{i}}
\newcommand{\e}{\mathrm{e}}
\newcommand{\real}{\operatorname{Re}}
\newcommand{\imag}{\operatorname{Im}}
\newcommand{\Arg}{\operatorname{Arg}}
\newcommand{\Ln}{\operatorname{Ln}}
\DeclareMathOperator*{\res}{res}
\newcommand{\re}{\operatorname{Re}}
\newcommand{\im}{\operatorname{Im}}
\newcommand{\arsinh}{\operatorname{ar\,sinh}}
\newcommand{\arcosh}{\operatorname{ar\,cosh}}
\newcommand{\artanh}{\operatorname{ar\,tanh}}
\newcommand{\sgn}{\operatorname{sgn}}
\newcommand{\diag}{\operatorname{diag}}
\newcommand{\proj}{\operatorname{proj}}
\newcommand{\rref}{\operatorname{rref}}
\newcommand{\rank}{\operatorname{rank}}
\newcommand{\Span}{\operatorname{span}}
\newcommand{\vir}{\operatorname{span}}
\renewcommand{\dim}{\operatorname{dim}}
\newcommand{\alg}{\operatorname{alg}}
\newcommand{\geom}{\operatorname{geom}}
\newcommand{\id}{\operatorname{id}}
\newcommand{\norm}[1]{\lVert #1 \rVert}
\newcommand{\tp}[1]{#1^{\top}}
\renewcommand{\d}{\mathrm{d}}
\newcommand{\sij}[2]{\bigg/_{\mspace{-15mu}#1}^{\,#2}}
\newcommand{\abs}[1]{\lvert#1\rvert}
\newcommand{\pysty}[1]{\left[\begin{array}{@{}r@{}}#1\end{array}\right]}
\newcommand{\piste}{\cdot}
\newcommand{\qedhere}{}
\newcommand{\taumatrix}[1]{\left[\!\!#1\!\!\right]}
\newenvironment{augmatrix}[1]{\left[\begin{array}{#1}}{\end{array}\right]}
\newenvironment{vaugmatrix}[1]{\left|\begin{array}{#1}}{\end{array}\right|}
\newcommand{\trans}{\mathrm{T}}
\newcommand{\EUR}{\text{\unicode{0x20AC}}}
\newcommand{\SI}[3][]{#2\,\mathrm{#3}}
\newcommand{\si}[2][]{\mathrm{#2}}
\newcommand{\num}[2][]{#2}
\newcommand{\ang}[2][]{#2^{\circ}}
\newcommand{\meter}{m}
\newcommand{\metre}{\meter}
\newcommand{\kilo}{k}
\newcommand{\kilogram}{kg}
\newcommand{\gram}{g}
\newcommand{\squared}{^2}
\newcommand{\cubed}{^3}
\newcommand{\minute}{min}
\newcommand{\hour}{h}
\newcommand{\second}{s}
\newcommand{\degreeCelsius}{^{\circ}C}
\newcommand{\per}{/}
\newcommand{\centi}{c}
\newcommand{\milli}{m}
\newcommand{\deci}{d}
\newcommand{\percent}{\%}
\newcommand{\Var}{\operatorname{Var}}
\newcommand{\Cov}{\operatorname{Cov}}
\newcommand{\Corr}{\operatorname{Corr}}
\newcommand{\Tasd}{\operatorname{Tasd}}
\newcommand{\Ber}{\operatorname{Ber}}
\newcommand{\Bin}{\operatorname{Bin}}
\newcommand{\Geom}{\operatorname{Geom}}
\newcommand{\Poi}{\operatorname{Poi}}
\newcommand{\Hyperg}{\operatorname{Hyperg}}
\newcommand{\Tas}{\operatorname{Tas}}
\newcommand{\Exp}{\operatorname{Exp}}
\newcommand{\tdist}{\operatorname{t}}
\newcommand{\rd}{\mathrm{d}}\]
Otosvarianssi
Satunnaismuuttujan vaihtelua kuvaavat tärkeimmät otossuureet ovat otosvarianssi ja otoskeskihajonta.
Satunnaismuuttujan \(X\) otosvarianssi on sen varianssin harhaton estimaattori.
Lause 5.3.2
Olkoon \(X_1,X_2,\ldots,X_n\) otos satunnaismuuttujasta \(X\). Muuttujan \(X\) otosvarianssi \(S^2\) on sen varianssin \(\sigma^2\) harhaton estimaattori, eli
\[\rE(S^2)=\Var(X)=\sigma^2.\]
Piilota/näytä todistus
Koska muuttujat \(X_i\), \(i = 1, 2, \ldots, n\) muodostavat otoksen satunnaismuuttujasta \(X\), on oltava \(\rE(X_i) = \rE(X) = \mu\) ja \(\Var(X_i) = \Var(X) = \sigma^2\). Väite seuraa odotusarvon lineaarisuudesta, kun otosvarianssin lausekkeessa merkitään \(X_i - \overline{X} = (X_i - \mu) - (\overline{X} - \mu)\) ja \(\sum\limits_{i = 1}^{n}X_i = n\overline{X}\):
\[\begin{split}\begin{aligned}
\rE(S^2) &= \rE\left(\frac{1}{n - 1}\sum_{i = 1}^n(X_i - \overline{X})^2\right) = \rE\left(\frac{1}{n - 1} \sum_{i = 1}^n\left((X_i - \mu) - (\overline{X} - \mu)\right)^2\right) \\
&= \rE\left(\frac{1}{n - 1}\sum_{i = 1}^n \left((X_i - \mu)^2 - 2(X_i - \mu)(\overline{X} - \mu) + (\overline{X} - \mu)^2\right)\right) \\
&= \frac{1}{n - 1}\rE\left(\sum_{i = 1}^n(X_i - \mu)^2 - 2(\overline{X} - \mu)\sum_{i = 1}^n(X_i - \mu) + \sum_{i = 1}^n(\overline{X} - \mu)^2\right) \\
&= \frac{1}{n - 1}\rE\left(\sum_{i = 1}^n(X_i - \mu)^2 - 2(\overline{X} - \mu)(n\overline{X} - n\mu) + n(\overline{X} - \mu)^2\right) \\
&= \frac{1}{n - 1}\rE\left(\sum_{i = 1}^n(X_i - \mu)^2 - n(\overline{X} - \mu)^2 \right) = \frac{1}{n - 1}\left(\sum_{i = 1}^nE\left((X_i - \mu)^2\right) - n\rE\left((\overline{X} - \mu)^2\right)\right) \\
&= \frac{1}{n - 1}\left(\sum_{i = 1}^n\Var(X_i) - n\Var(\overline{X})\right) = \frac{1}{n - 1}\left(n\sigma^2 - n\frac{\sigma^2}{n}\right) = \sigma^2.
\end{aligned}\end{split}\]
Tässä lauseessa on syy siihen, miksi otosvarianssin määritelmässä nimittäjään kirjoitetaan \(n-1\) eikä \(n\).
Tutkitaan sitten otosvarianssin jakaumaa. Normaalijakautuneiden satunnaismuuttujien muunnoksina saadaan eräitä uusia jakaumia, joita käytetään erityisesti tilastollisessa testaamisessa useiden testisuureiden jakaumina. Ensimmäisenä niistä määritellään \(\chi^2\)-jakauma (lausutaan khii toiseen).
Laskuja varten satunnaismuuttujan \(W \sim \chi^2(n)\) kertymäfunktion \(F(t)=P(W \leq t)\) ja sen käänteisfunktion arvoja on kerätty liitetaulukkoon eri vapausasteluvuilla. Luonnollisesti arvot voi laskea myös ohjelmilla.
Esimerkki 5.3.4
Oletetaan, että \(W\sim\chi^2(14)\), ja etsitään ei-negatiiviset reaaliluvut \(w_1\) ja \(w_2\), joille \(P(W \leq w_1) = 0.1\) ja \(P(W \geq w_2) = 0.1\). Taulukossa valitaan ensin vapausastelukua \(14\) vastaava rivi, ja luetaan sitten, että \(P(W \leq w_1) = 0.1 = 1 - 0.9\), kun \(w_1 \approx 7.790\). Vastaavasti luvusta \(w_2\) päätellään ensin, että \(P(W < w_2) = 1 - 0.1 = 0.9\), joten \(w_2 \approx 21.064\).
Matlabilla laskettaessa voidaan käyttää komentoa
w = chi2inv([0.1 0.9], 14)
joka antaa vastaukseksi vektorin \(w =[w_1, w_2]\). Vastaavasti R:llä arvot saadaan
chisq(0.1, 14) # w1
qchisq(0.9, 14) # w2
Lause 5.3.5
Satunnaismuuttujan \(W\sim\chi^2(n)\) odotusarvo ja varianssi ovat
\[E(W)=n\qquad\text{ja}\qquad\mathrm{Var}(W)=2n\]
Todistus sivuutetaan.
\(\chi^2-\)jakauman hyödyllisyys otosvarianssin kannalta käy ilmi seuraavien lauseiden myötä. Niiden todistukset sivuutetaan.
Lause 5.3.6
Oletetaan, että satunnaismuuttujat \(Z_i \sim \rN(0, 1)\), \(i=1,2,\ldots,n\) ovat riippumattomia. Tällöin niiden neliösumma
\[W = \sum_{i = 1}^nZ_i^2 = Z_1^2 + Z_2^2 + \cdots + Z_n^2 \sim \chi^2(n).\]
Jos siis lasketaan yhteen \(n\) riippumattoman standardinormaalijakautuneen satunnaismuuttujan neliöt, saadaan \(\chi^2(n)-\)jakautunut satunnaismuuttuja.
Olkoon \(X_1, X_2, \ldots, X_n\) otos satunnaismuuttujasta \(X\sim\rN(\mu, \sigma^2)\). Muuttujan \(X\) otosvarianssin \(S^2\) jakauman sijaan tutkitaan otossuureen
\[\frac{(n - 1)S^2}{\sigma^2}\]
jakaumaa. Voidaan osoittaa, että tämä otosvarianssin funktio on \(\chi^2-\)jakautunut.
Lause 5.3.7
Jos \(X_1,X_2,\ldots,X_n\) on otos muuttujasta \(X\sim\mathrm{N}(\mu,\sigma^2)\), niin
- \(\overline{X}\) ja \(S^2\) ovat riippumattomia,
- otossuure \(\dfrac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1)\).
Piilota/näytä todistus
Ensimmäisen kohdan todistus sivuutetaan, ja toisesta kohdasta hahmotellaan todistuksen idea. Koska voidaan kirjoittaa
\[\frac{(n - 1)S^2}{\sigma^2} = \frac{1}{\sigma^2}\sum_{i = 1}^n(X_i - \overline{X})^2 = \sum_{i = 1}^{n}\left(\frac{X_i - \overline{X}}{\sigma}\right)^2 = \sum_{i = 1}^{n}\left(\frac{X_i - \mu}{\sigma}\right)^2 - \left(\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\right)^2,\]
päätellään että
\[\sum_{i = 1}^{n}\left(\frac{X_i - \mu}{\sigma}\right)^2 = \frac{(n - 1)S^2}{\sigma^2} + \left(\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\right)^2,\]
missä \(\displaystyle{\sum\limits_{i = 1}^{n}\left(\dfrac{X_i - \mu}{\sigma}\right)^2 \sim \chi^2(n)}\) ja \(\left(\dfrac{\overline{X} - \mu}{\sigma/\sqrt{n}}\right)^2 \sim \chi^2(1)\).
Kun \(\chi^2-\)jakautunut satunnaismuuttuja voidaan ajatella olevan \(\mathrm{N}(0,1)-\)jakautuneiden muuttujien neliöiden summa, päätellään epäsuorasti, että
\(\dfrac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1)\).
Tätä tulosta tarvitaan varianssin luottamusvälin määrittämisessä.