\[\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \renewcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bbf}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-10mu}\,#1}^{\,#2}} \newcommand{\qedhere}{}\]

Hypoteesit ja testaaminen

Tilastollisella hypoteesilla tarkoitetaan jotain populaatiojakauman ominaisuutta, joko sillä on tai sitten ei ole. Usein tällainen ominaisuus koskee jakauman parametreja tai todennäköisyyksiä. Hypoteesia testatessa pyritään selvittämään otosta käyttäen, onko tämä hypoteesi tosi vai ei. Koska testaus perustuu satunnaisotoksiin, johtopäätös ei koskaan ole varma.

Tavallisesti testaamisen aluksi asetetaan nollahypoteesi \(H_0\) (null hypothesis) ja tälle vaihtoehtoinen hypoteesi \(H_1\) (alternative hypothesis). Testi suoritetaan aina sillä oletuksella, että nollahypoteesi pitää paikkansa. Jos myöhemmin saadaan vahvaa näyttöä siitä, että \(H_0\) ei pidäkään paikkaansa, niin se hylätään ja johtopäätöksenä hyväksytään \(H_1\). Muussa tapauksessa nollahypoteesi jää voimaan. Tällaisen päättelyn tuloksena tehty johtopäätös voi olla virheellinen kahdella tavalla.

  1. Tyypin I virhe (hylkäämisvirhe): hylätään \(H_0\), vaikka se on tosi.
  2. Tyypin II virhe (hyväksymisvirhe): \(H_0\) jää voimaan, vaikka se on väärä.
\[\begin{split}\begin{array}{r|c c}\hline & H_0 \text{ on tosi} & H_0 \text{ on väärä} \\\hline H_0 \text{ hyväksytään} & \text{oikea johtopäätös} & \text{tyypin II virhe} \\ H_0 \text{ hylätään} & \text{tyypin I virhe} & \text{oikea johtopäätös} \\\hline \end{array}\end{split}\]

Tyypin I virheen todennäköisyyttä \(\alpha\) sanotaan testin riskitasoksi eli merkitsevyydeksi (risk, level of significance, size of the test). Tavallisesti riskitaso asetetaan etukäteen ja suhteellisen pieneksi: tyypillisiä valintoja ovat \(\alpha = 0{,}05 = 5~\%\), \(\alpha = 0{,}01 = 1~\%\) ja \(\alpha = 0{,}001 = 0{,}1~\%\). Tällä valinnalla korostetaan sitä testaamisen perusoletusta, että nollahypoteesin oletetaan olevan tosi ja vasta riittävän suuri poikkeama aiheuttaa nollahypoteesin hylkäämisen.

Tyypin II virheen todennäköisyyttä \(\beta\) ei useinkaan voida laskea. Toivottavaa olisi, että virheiden todennäköisyydet olisivat molemmat mahdollisimman pieniä, mutta todennäköisyyden \(\alpha\) pienentyessä \(\beta\) kasvaa ja kääntäen. Otoskoon kasvattaminen pienentää molempien virheiden todennäköisyyttä: suurempi otos edustaa paremmin koko populaatiota ja johtopäätökset ovat varmemmin oikein. Tilastollisen testin tarkoituksena on kuitenkin tutkia populaatiota helpommin tutkittavan otoksen avulla. Lukua \(1-\beta\) kutsutaan testin voimakkuudeksi (power).

Mikä seuraavista väitteistä kuvaa parhaiten tilastollista testaamista?
Eräässä testitilanteessa valitaan riskitaso \(\alpha\) ja otoskoko \(n\). Millä seuraavista valinnoista mahdollisuus hylkäämisvirheen tekemiseen on suurimmillaan?
Entä millä valinnalla mahdollisuus hyväksymisvirheen tekemiseen on suurimmillaan?

Varsin usein hypoteesi koskee jakauman parametria \(\theta\) ja nollahypoteesiksi asetetaan muotoa \(H_0 : \theta=\theta_0\) oleva väite. Vaihtoehtoisen hypoteesin tarkoituksena on kiistää tämä, eli se voi olla

\[H_1 : \theta\neq\theta_0,\qquad H_1 : \theta<\theta_0 \qquad\text{tai}\qquad H_1 : \theta>\theta_0.\]

Riskitasolla \(\alpha\) tämän tyyppisten hypoteesien testaus palautuu parametrin \(\theta\) \(100(1 - \alpha)~\%\):n luottamusvälin, luottamusalarajan tai luottamusylärajan määrittämiseen.

Testaamista varten tarvitaan satunnaismuuttujan \(X\) otoksesta \(X_1,X_2,\ldots,X_n\) riippuva satunnaismuuttuja, eli testisuure \(t = t(X_1,X_2,\ldots,X_n)\) (test statistics), jonka jakauma tunnetaan nollahypoteesin ollessa voimassa. Tyypillisesti testisuureeksi valitaan jokin testattavan parametrin sisältävä lauseke, ja siinä esiintyy testin satunnaismuuttujaan liittyvä otossuure. Seuraavissa luvuissa keskitytään juuri testattavaan hypoteesiin liittyvän testisuureen oikeaan valintaan.

Kun oikea testisuure on valittu, määritetään sen harvinaisten arvojen joukko, eli kriittinen alue (critical region) \(C\), jolle ehdollinen todennäköisyys

\[P(t \in C \mid H_0 \text{ on tosi}) = \alpha.\]

Todennäköisyys, että testisuureen arvo kuuluu kriittiselle alueelle on siis riskitason \(\alpha\) suuruinen. Koska hyväksymisvirhe \(\beta\) pyritään minimoimaan, kriittinen alue valitaan testisuureen jakauman reunoilta. Riippuen vaihtoehtoisen hypoteesin muodosta, testi on joko yksi- tai kaksisuuntainen (one-tailed, two-tailed test). Yksisuuntaisessa testissä vaihtoehtoinen hypoteesi on muotoa

\[H_1: \theta<\theta_0 \qquad\text{tai}\qquad H_1 : \theta>\theta_0,\]

ja yksiosainen kriittinen alue sijaitsee joko jakauman oikeassa tai vasemmassa reunassa.

../_images/yksisuuntainen_testi2.svg
../_images/yksisuuntainen_testi1.svg

Kaksisuuntaisessa testissä vaihtoehtoinen hypoteesi on muotoa

\[H_1 : \theta\neq\theta_0,\]

ja kaksiosainen kriittinen alue sijaitsee puoliksi jakauman molemmissa reunoissa.

../_images/kaksisuuntainen_testi.svg

Testisuureelle lasketaan otoksen perusteella arvo, jota verrataan kriittiseen alueeseen. Jos arvo on kriittisellä alueella, nollahypoteesi on todennäköisesti väärä ja se hylätään. Jos arvo ei kuulu kriittiselle alueelle, niin se on “tavallinen” arvo ja oletettua nollahypoteesiä ei ole perusteita epäillä.

Testauksen tulos voidaan ilmoittaa myös käyttäen niin sanottua \(p\)-arvoa (\(p\)-value). Testin \(p\)-arvo on pienin riskitaso, jolla \(H_0\) tulee hylätä. Tällöin nollahypoteesi hylätään merkitsevyystasolla \(\alpha\), jos \(p < \alpha\). Jos puolestaan \(p \geq \alpha\), niin nollahypoteesi jää voimaan. Yksisuuntaisessa testauksessa \(p\)-arvo on realisoitunutta testisuuretta vastaava häntätodennäköisyys. Kaksisuuntaisessa testissä valitaan realisoitunutta testisuuretta vastaavista häntätodennäköisyyksistä pienempi ja kerrotaan se kahdella.

Testataan satunnaismuuttujan \(X\) jakauman parametriin \(\theta\) (esimerkiksi normaalijakauman tapauksessa odotusarvoon \(\mu\)) liittyvää väitettä. Mikä on tyypillisin valinta nollahypoteesiksi \(H_0\), jos \(a\) on jokin reaaliluku?
Käytetään testauksessa yksisuuntaista testiä, jonka kriittinen alue on jakauman oikeassa laidassa. Mikä on silloin ollut vaihtoehtoinen hypoteesi \(H_1\)?
Testitilanteessa \(A\) on testattu täysin eri asiaa kuin testitilanteessa \(B\). Tilanteessa \(A\) on saatu \(p\)-arvo \(p_A=0{,}0178\) ja tilanteessa \(B\) \(p\)-arvo \(p_B=0{,}0762\). Mitkä seuraavista väitteistä ovat totta?

Yhteenvetona voidaan todeta seuraavat tilastollisen testaamisen vaiheet.

  1. Asetetaan testattava hypoteesipari \(H_0\) ja \(H_1\), sekä oletetaan että nollahypoteesi \(H_0\) on voimassa.
  2. Valitaan testin merkitsevyystaso \(\alpha\), tavallisesti jokin luvuista \(0{,}05\), \(0{,}01\) tai \(0{,}001\).
  3. Valitaan testattavaan parametriin liittyvä testisuure \(t\), jonka jakauma tunnetaan, kun nollahypoteesi oletetaan todeksi. Lasketaan sille realisoitunut arvo.
  4. Määritetään kriittinen alue vaihtoehtoisen hypoteesin perusteella, tai lasketaan \(p\)-arvo jos mahdollista.
  5. Jos testisuureen \(t\) arvo osuu kriittiselle alueelle, tai \(p < \alpha\), niin hylätään \(H_0\) ja hyväksytään \(H_1\). Muussa tapauksessa \(H_0\) jää voimaan.

Edellä esitetty kriittisen alueen määrääminen tai \(p\)-arvon laskeminen voidaan tehdä ohjelmistoihin toteutettujen jakaumien kertymäfunktioiden ja niiden käänteisfunktioiden, tai sitten jakaumataulukoiden avulla. Monet tilastolliset ohjelmistot laskevat suoraan testin \(p\)-arvon, mutta niiden käyttäjän vastuulle jää tehdä oikeat tulkinnat ja huomioida testin yksi- tai kaksisuuntaisuus.

Palautusta lähetetään...