Processing math: 100%
Tämä kurssi on jo päättynyt.

Odotusarvojen testaus

Odotusarvon testaus, varianssi tunnettu

Olkoon X1,X2,,Xn on otos muuttujasta XN(μ,σ2), missä varianssi σ2 tunnetaan, ja asetetaan nollahypoteesiksi H0:μ=μ0. Tällöin otoskeskiarvo ¯XN(μ,σ2n) ja erityisesti

¯Xμσ/nN(0,1),

joten nollahypoteesin ollessa voimassa

Z=¯Xμ0σ/nN(0,1).

Valitaan siis testisuureeksi Z. Vaihtoehtoisen hypoteesin muodosta riippuen kriittinen alue on standardinormaalijakauman toisessa tai molemmissa reunoissa oleva joukko, johon liittyvä todennäköisyys on valitun merkitsevyystason α suuruinen. Eri vaihtoehtoisia hypoteeseja vastaavat kriittiset alueet ja p-arvot on tiivistetty seuraavaan taulukkoon. Siinä testisuureelle Z realisoitunutta arvoa merkitään symbolilla z, ja merkinnöillä zα ja zα/2 tarkoitetaan lukuja, joille Φ(zα)=1α ja Φ(zα/2)=1α2.

H1kriittinen aluep-arvoμ<μ0(,zα)Φ(z)μ>μ0(zα,)1Φ(z)μμ0(,zα/2)(zα/2,)2min{Φ(z),1Φ(z)}

Esimerkki 6.2.1

Seudun vuotuisen sademäärän X (cm) keskiarvoksi 100 vuoden ajalta on saatu 106,0 ja keskihajonnaksi 15,3, ja oletetaan, että XN(106,0,15,32). Viimeisen 5 vuoden sademäärän keskiarvoksi on saatu 89,3. Millä todennäköisyydellä tällainen tulos olisi odotettavissa, jos keskisademäärissä ei ole tapahtunut muutosta? Onko syytä epäillä, että seudun sääolosuhteissa on tapahtunut pysyvänluonteinen muutos?

Piilota/näytä ratkaisu

On testattava nollahypoteesia H0:μ=106,0, missä μ on sademäärän X todellinen odotusarvo viimeisen viiden vuoden ajalta. Mittaustulos ¯x=89,3 viittaisi siihen, että mahdollinen muutos olisi sademäärän pienentyminen, joten asetetaan vaihtoehtoiseksi hypoteesiksi H1:μ<106,0. Valitaan testin merkitsevyystasoksi α=0,01.

Nollahypoteesin ollessa voimassa vuoden sademäärä XN(106,0,15,32), joten viiden vuoden sademäärän standardoitu otoskeskiarvo

Z=¯X106,015,3/5N(0,1),

jolle realisoituu arvo z2,4407. Valitaan testisuureeksi Z. Kysytty todennäköisyys on testin p-arvo

p=P(¯X<¯x)=Φ(2,4407),

jolle lasketaan komennolla normcdf(-2.4407) (Matlab), qnorm(-2.4407) (R) tai taulukosta katsomalla likiarvo p0,0073. Koska p<0,01, nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi μ<106,0 astuu voimaan. Johtopäätöksenä todetaan, että seudun keskisademäärä on vähentynyt.

Tarkastellaan saman hypoteesin testaamista vielä kriittisen alueen avulla. Vaihtoehtoisen hypoteesin muodon vuoksi kriittinen alue on jakauman N(0,1) vasemmassa reunassa oleva reaalilukuväli (,zα), jonka ylärajassa zα toteuttaa ehdon

P(Z<zα)=1α=0,99Φ(2,3263),

missä yhteys Φ(2,3263)0,99 ratkaistaan komennolla norminv(0.99) tai luetaan karkeampi likiarvo taulukosta. Testisuureen Z kriittiseksi alueeksi saadaan siis (,2,3263), ja koska realisoitunut testisuureen arvo z on tällä välillä, nollahypoteesi on hylättävä.

Huomautus 6.2.2

Keskeinen raja-arvolause takaa, että vain harvoin poikkeuksin riittävän suurilla otoksilla minkä tahansa satunnaismuuttujan X otoskeskiarvo ¯X noudattaa likimain normaalijakaumaa. Tämän vuoksi edellinen menetelmä soveltuu rajoitetusti myös muille kuin normaalijakaumaa noudattaville satunnaismuuttujille.

Tehtävää ladataan...

Odotusarvon testaus, varianssi tuntematon

Kun normaalijakauman varianssi on tuntematon, joudutaan sen sijaan käyttämään otosvarianssia ja luottamusvälin konstruoimisessa t-jakaumaa. Satunnaismuuttuja

T=¯XμS/nt(n1),

ja nollahypoteesin μ=μ0 ollessa voimassa

T=¯Xμ0S/nt(n1),

joten valitaan testisuureeksi T. Vaihtoehtoisen hypoteesin muodosta riippuen kriittinen alue on t(n1)-jakauman toisessa tai molemmissa reunoissa oleva joukko, johon liittyvä todennäköisyys on valitun merkitsevyystason α suuruinen. Eri vaihtoehtoisia hypoteeseja vastaavat kriittiset alueet ja p-arvot on tiivistetty seuraavaan taulukkoon. Siinä testisuureelle T realisoitunutta arvoa merkitään symbolilla t, ja merkinnöillä tα ja tα/2 tarkoitetaan lukuja, joille P(T<tα)=1α ja P(T<tα/2)=1α2.

H1kriittinen aluep-arvoμ<μ0(,tα)P(T<t)μ>μ0(tα,)1P(T<t)μμ0(,tα/2)(tα/2,)2min{P(T<t),1P(T<t)}

Esimerkki 6.2.3

Tehtaan ilmoituksen mukaan venttiilivarren halkaisija noudattaa normaalijakaumaa ja on keskimäärin 8,040 mm. Tehdas ottaa uudesta tuotantoerästään 40 kappaleen otoksen tutkiakseen, onko tuotantoerän laatu yhtä hyvä kuin alkuperäisillä. Otoskeskiarvoksi saatiin ¯x=8,038 mm ja otoskeskihajonnaksi s=0,006 mm. Pitäisikö erä päästää markkinoille, jos väärän hylkäyspäätöksen riskiksi sallitaan 5 %?

Piilota/näytä ratkaisu

Testataan nollahypoteesia H0:μ=8,040 riskitasolla (merkitsevyystasolla) α=0,05. Koska halutaan selvittää, onko halkaisija muuttunut, mutta muutoksen suunta on epäselvä, valitaan vaihtoehtoiseksi hypoteesiksi H1:μ8,040.

Varianssi on tuntematon, joten käytetään testisuuretta

T=¯XμS/nt(39),

jolle nollahypoteesin ollessa voimassa realisoituu arvo

t=8,0388,0400,006/402,108.

Testi on kaksisuuntainen, joten kriittinen alue koostuu kahdesta osasta. Taulukkoon ei ole merkitty riviä vapausasteluvulle 39, joten sitä käytettäessä testisuureen T oikeaa jakaumaa joudutaan approksimoimaan jakaumalla t(40). Matlabin komennolla

tinv(1 - 0.05/2, 39)

tai R-komennolla

qt(1 - 0.05/2, 39)

ratkaistaan tα/22,0227, joten t-jakauman symmetrisyyden perusteella kriittinen alue on (,2,0227)(2.0227,). Testisuureelle realisoitunut arvo osuu kriittiselle alueelle, joten hylätään nollahypoteesi ja todetaan, että venttiilivarren halkaisija on muuttunut ilmoitetusta. Varovaisena toimijana tehtaan ei siis tulisi päästää erää markkinoille.

Tutkitaan sitten vielä p-arvon avulla pienintä riskitasoa, jolla nollahypoteesi hylättäisiin. Kaksisuuntaiselle testille

p=2min{P(T<t),1P(T<t)},

jolle Matlabin

2 * min([tcdf(-2.108, 39), 1 - tcdf(-2.108, 39)])

ja R-ohjelmiston

2 * min(pt(-2.108, 39), 1 - pt(-2.108, 39))

antavat arvoksi p0,0415. Siis esimerkiksi merkitsevyystasolla α=0,01 nollahypoteesia ei hylätä, ja erä voitaisiin antaa myyntiin! Tämä ei silti kerro koko totuutta, sillä riskitason (tyypin I virheen todennäköisyyden) pienentyessä tyypin II virheen todennäköisyys kasvaa. Sallimalla vain pienempi 1 % väärän hylkäyksen riski onnistutaan kasvattamaan väärän hyväksynnän riskiä.

Kahden odotusarvon yhtäsuuruuden testaus

Olkoot X1,X2,,Xn ja Y1,Y2,,Ym otoksia satunnaismuuttujista XN(μX,σ2X) ja YN(μY,σ2Y), ja pyritään vertailemaan odotusarvoja μX ja μY tilastollisen testauksen keinoin. Kun tarkoitus on tutkia, ovatko populaatioiden odotusarvot yhtäsuuret, testataan nollahypoteesia

H0:μX=μY,eliH0:μXμY=0.

Otoskeskiarvot ¯X ja ¯Y ovat normaalijakautuneita, joten lauseen 5.1.3 mukaan

¯X¯YN(μXμY,σ2Xn+σ2Ym).

Kun varianssit oletetaan tunnetuiksi, nollahypoteesin testaamiseksi saadaan testisuure

Z=¯X¯Yσ2X/n+σ2Y/mN(0,1).

Jos varianssit σ2X ja σ2Y ovat tuntemattomia, mutta ne voidaan olettaa yhtä suuriksi, eli σ2X=σ2Y=σ2, voidaan satunnaismuuttujien X ja Y otosvarianssien S2X ja S2Y avulla muodostaa niin sanottu yhteisotosvarianssi

S2=(n1)S2X+(m1)S2Yn+m2,

joka on yhteisen varianssin σ2 harhaton estimaattori. Korvaamalla tunnettujen varianssien testisuureen Z lausekkeessa varianssit σ2X ja σ2Y yhteisotosvarianssilla saadaan t-jakautunut testisuure

T=¯X¯YS2/n+S2/mt(n+m2).

Molempien testisuureiden jakaumat ovat symmetrisiä, joten merkitsevyystasoa α vastaava kriittinen alue määräytyy vaihtoehtoisen hypoteesin mukaisesti samaan tapaan kuin yksittäisen odotusarvon testeissä jakauman toisesta tai molemmista reunoista.

Esimerkki 6.2.4

Olkoon 4,1,4,2,4,8,4,6,4,9 otos muuttujasta XN(μX,σ2X) ja olkoon 3,9,5,1,4,4,4,2 otos muuttujasta YN(μY,σ2Y). Testaa hypoteesiparia

H0:μX=μYjaH1:μXμY

5 %:n riskitasolla, kun varianssit σ2X ja σ2Y oletetaan yhtä suuriksi.

Piilota/näytä ratkaisu

Otosten perusteella lasketaan (Matlab/R, mean ja var), että

¯x=4,52,s2X=0,127,n=5¯y=4,40,s2Y=0,260,m=4.

Koska todellisia variansseja ei tunneta, lasketaan yhteisotosvarianssi

S2=(n1)s2X+(m1)s2Yn+m2)=40,127+30,2605+42=0,184.

Tällöin testisuure

T=¯X¯YS2/n+S2/mt(5+42)=t(7),

ja sille realisoituu arvo t0,417. Kriittisen alueen rajaksi määritetään tα/22,3646 komennolla tinv(1 - 0.05/2, 7) (Matlab) tai qt(1 - 0.05/2, 7) (R), jolloin kriittinen alue on kaksiosainen (,2,3646)(2,3646,). Testisuureen arvo ei kuulu kriittiselle alueelle, joten H0 jää voimaan ja testin perusteella satunnaismuuttujilla X ja Y on sama odotusarvo.

Kaksisuuntaisen testin p-arvoksi saadaan Matlab-komennolla

2 * min([tcdf(0.417, 7), 1 - tcdf(0.417, 7)])

tai R-komennolla

2 * min(pt(0.417, 7), 1 - pt(0.417, 7))

varsin korkea p0,6891α, missä α on mikä vain tyypillinen merkitsevyystaso.

Palautusta lähetetään...