- MATH.APP.210
- 6. Tilastollinen testaaminen
- 6.1 Hypoteesit ja testaaminen
Hypoteesit ja testaaminen¶
Tilastollisella hypoteesilla tarkoitetaan jotain populaatiojakauman ominaisuutta, joko sillä on tai sitten ei ole. Usein tällainen ominaisuus koskee jakauman parametreja tai todennäköisyyksiä. Hypoteesia testatessa pyritään selvittämään otosta käyttäen, onko tämä hypoteesi tosi vai ei. Koska testaus perustuu satunnaisotoksiin, johtopäätös ei koskaan ole varma.
Tavallisesti testaamisen aluksi asetetaan nollahypoteesi H_0 (null hypothesis) ja tälle vaihtoehtoinen hypoteesi H_1 (alternative hypothesis). Testi suoritetaan aina sillä oletuksella, että nollahypoteesi pitää paikkansa. Jos myöhemmin saadaan vahvaa näyttöä siitä, että H_0 ei pidäkään paikkaansa, niin se hylätään ja johtopäätöksenä hyväksytään H_1. Muussa tapauksessa nollahypoteesi jää voimaan. Tällaisen päättelyn tuloksena tehty johtopäätös voi olla virheellinen kahdella tavalla.
- Tyypin I virhe (hylkäämisvirhe): hylätään H_0, vaikka se on tosi.
- Tyypin II virhe (hyväksymisvirhe): H_0 jää voimaan, vaikka se on väärä.
Tyypin I virheen todennäköisyyttä \alpha sanotaan testin riskitasoksi eli merkitsevyydeksi (risk, level of significance, size of the test). Tavallisesti riskitaso asetetaan etukäteen ja suhteellisen pieneksi: tyypillisiä valintoja ovat \alpha = 0{,}05 = 5~\%, \alpha = 0{,}01 = 1~\% ja \alpha = 0{,}001 = 0{,}1~\%. Tällä valinnalla korostetaan sitä testaamisen perusoletusta, että nollahypoteesin oletetaan olevan tosi ja vasta riittävän suuri poikkeama aiheuttaa nollahypoteesin hylkäämisen.
Tyypin II virheen todennäköisyyttä \beta ei useinkaan voida laskea. Toivottavaa olisi, että virheiden todennäköisyydet olisivat molemmat mahdollisimman pieniä, mutta todennäköisyyden \alpha pienentyessä \beta kasvaa ja kääntäen. Otoskoon kasvattaminen pienentää molempien virheiden todennäköisyyttä: suurempi otos edustaa paremmin koko populaatiota ja johtopäätökset ovat varmemmin oikein. Tilastollisen testin tarkoituksena on kuitenkin tutkia populaatiota helpommin tutkittavan otoksen avulla. Lukua 1-\beta kutsutaan testin voimakkuudeksi (power).
Varsin usein hypoteesi koskee jakauman parametria \theta ja nollahypoteesiksi asetetaan muotoa H_0 : \theta=\theta_0 oleva väite. Vaihtoehtoisen hypoteesin tarkoituksena on kiistää tämä, eli se voi olla
Riskitasolla \alpha tämän tyyppisten hypoteesien testaus palautuu parametrin \theta 100(1 - \alpha)~\%:n luottamusvälin, luottamusalarajan tai luottamusylärajan määrittämiseen.
Testaamista varten tarvitaan satunnaismuuttujan X otoksesta X_1,X_2,\ldots,X_n riippuva satunnaismuuttuja, eli testisuure t = t(X_1,X_2,\ldots,X_n) (test statistics), jonka jakauma tunnetaan nollahypoteesin ollessa voimassa. Tyypillisesti testisuureeksi valitaan jokin testattavan parametrin sisältävä lauseke, ja siinä esiintyy testin satunnaismuuttujaan liittyvä otossuure. Seuraavissa luvuissa keskitytään juuri testattavaan hypoteesiin liittyvän testisuureen oikeaan valintaan.
Kun oikea testisuure on valittu, määritetään sen harvinaisten arvojen joukko, eli kriittinen alue (critical region) C, jolle ehdollinen todennäköisyys
Todennäköisyys, että testisuureen arvo kuuluu kriittiselle alueelle on siis riskitason \alpha suuruinen. Koska hyväksymisvirhe \beta pyritään minimoimaan, kriittinen alue valitaan testisuureen jakauman reunoilta. Riippuen vaihtoehtoisen hypoteesin muodosta, testi on joko yksi- tai kaksisuuntainen (one-tailed, two-tailed test). Yksisuuntaisessa testissä vaihtoehtoinen hypoteesi on muotoa
ja yksiosainen kriittinen alue sijaitsee joko jakauman oikeassa tai vasemmassa reunassa.
Kaksisuuntaisessa testissä vaihtoehtoinen hypoteesi on muotoa
ja kaksiosainen kriittinen alue sijaitsee puoliksi jakauman molemmissa reunoissa.
Testisuureelle lasketaan otoksen perusteella arvo, jota verrataan kriittiseen alueeseen. Jos arvo on kriittisellä alueella, nollahypoteesi on todennäköisesti väärä ja se hylätään. Jos arvo ei kuulu kriittiselle alueelle, niin se on “tavallinen” arvo ja oletettua nollahypoteesiä ei ole perusteita epäillä.
Testauksen tulos voidaan ilmoittaa myös käyttäen niin sanottua p-arvoa (p-value). Testin p-arvo on pienin riskitaso, jolla H_0 tulee hylätä. Tällöin nollahypoteesi hylätään merkitsevyystasolla \alpha, jos p < \alpha. Jos puolestaan p \geq \alpha, niin nollahypoteesi jää voimaan. Yksisuuntaisessa testauksessa p-arvo on realisoitunutta testisuuretta vastaava häntätodennäköisyys. Kaksisuuntaisessa testissä valitaan realisoitunutta testisuuretta vastaavista häntätodennäköisyyksistä pienempi ja kerrotaan se kahdella.
Yhteenvetona voidaan todeta seuraavat tilastollisen testaamisen vaiheet.
- Asetetaan testattava hypoteesipari H_0 ja H_1, sekä oletetaan että nollahypoteesi H_0 on voimassa.
- Valitaan testin merkitsevyystaso \alpha, tavallisesti jokin luvuista 0{,}05, 0{,}01 tai 0{,}001.
- Valitaan testattavaan parametriin liittyvä testisuure t, jonka jakauma tunnetaan, kun nollahypoteesi oletetaan todeksi. Lasketaan sille realisoitunut arvo.
- Määritetään kriittinen alue vaihtoehtoisen hypoteesin perusteella, tai lasketaan p-arvo jos mahdollista.
- Jos testisuureen t arvo osuu kriittiselle alueelle, tai p < \alpha, niin hylätään H_0 ja hyväksytään H_1. Muussa tapauksessa H_0 jää voimaan.
Edellä esitetty kriittisen alueen määrääminen tai p-arvon laskeminen voidaan tehdä ohjelmistoihin toteutettujen jakaumien kertymäfunktioiden ja niiden käänteisfunktioiden, tai sitten jakaumataulukoiden avulla. Monet tilastolliset ohjelmistot laskevat suoraan testin p-arvon, mutta niiden käyttäjän vastuulle jää tehdä oikeat tulkinnat ja huomioida testin yksi- tai kaksisuuntaisuus.