Loading [MathJax]/jax/output/CommonHTML/jax.js

Keskeinen raja-arvolause

Keskeinen raja-arvolause (central limit theorem) antaa perustelut sille, miksi normaalijakaumaa käytetään laajasti tilastotieteessä estimointiin ja hypoteesien testaamiseen. Lause sanoo, että riippumattomien satunnaismuuttujien summan jakauma lähestyy normaalijakaumaa, kun yhteenlaskettavien lukumäärä kasvaa. Merkille pantavaa on, että tämä normaalijakauman lähestyminen tapahtuu, olivatpa yhteenlaskettavien jakaumat (eräitä vaatimattomia rajoituksia lukuunottamatta) millaisia tahansa, diskreettejä tai jatkuvia. Seuraavassa annetaan keskeinen raja-arvolause sen yksinkertaisimmassa muodossa.

Lause 5.2.1 (Keskeinen raja-arvolause)

Olkoon X1,X2,,Xn otos satunnaismuuttujasta X, jonka odotusarvo on μ ja varianssi σ2. Tällöin standardoidun otoskeskiarvon

¯X=¯XE(¯X)Var(¯X)=¯Xμσ/n

kertymäfunktio

F(t)=P(¯Xt)Φ(t),

kun n, missä Φ(t) on standardinormaalijakauman N(0,1) kertymäfunktio.

Käytännön tehtävissä keskeistä raja-arvolausetta sovelletaan seuraavassa muodossa.

Lause 5.2.2

Olkoon X1,X2,,Xn otos satunnaismuuttujasta X, jonka odotusarvo on μ ja varianssi σ2. Jos n on suuri, niin standardoitu otoskeskiarvo ¯X noudattaa likimain standardinormaalijakaumaa,

¯X.N(0,1).

Huomaa pisteellä varustettu merkintä, jolla erotetaan likimain noudattaminen täsmällisestä jakauman noudattamisesta.

Tällä niin sanotulla normaaliapproksimaatiolla saadaan hyviä arvioita yleensä silloin, kun n30 ja muuttujan X jakauma on minkälainen tahansa. Jos muuttujan X jakauman tiedetään olevan jo valmiiksi lähellä normaalijakaumaa, niin normaaliapproksimaatio soveltuu jo arvoa n=30 pienemmille otoksille. Jos X on normaalijakautunut, niin otoskeskiarvo on lauseen 5.1.5 mukaan täsmälleen normaalijakautunut, eikä normaaliapproksimaatiota tarvita.

Keskeisen raja-arvolauseen sisältö voidaan ilmaista vieläkin helpommin sovellettavassa muodossa.

Seuraus 5.2.3

Olkoon X1,X2,,Xn otos satunnaismuuttujasta X, jonka odotusarvo on μ ja varianssi σ2. Tällöin otoskeskiarvo

¯X.N(μ,σ2n)

ja otoksen summa

ni=1Xi.N(nμ,nσ2).
Keskeinen raja-arvolause kertoo, että yhteenlaskettavien lukumäärän kasvaessa riippumattomien satunnaismuuttujien summan jakauma lähestyy
Olkoon X1,X2,,Xn otos satunnaismuuttujasta X, jonka odotusarvo on μ ja varianssi σ2. Tällöin otoskeskiarvo
Olkoon X1,X2,,Xn otos satunnaismuuttujasta X, jonka odotusarvo on μ ja varianssi σ2. Tällöin otoksen summa

Esimerkki 5.2.4

Hissin varoitustaulun mukaan se voi kuljettaa korkeintaan 25 henkilöä tai 2000 kilogrammaa. Henkilöpaino (kg) on satunnaismuuttuja, jonka odotusarvoksi oletetaan μ=74 ja varianssiksi σ2=100. Millä todennäköisyydellä satunnaisesti valitun 25 henkilön kokonaispaino ylittää 2000 kg?

Jos satunnaismuuttuja X kuvaa yhteensä 25 henkilön kokonaispainoa, niin keskeisen raja-arvolauseen nojalla

X.N(2574,25100)=N(1850,2500).

Täten

P(X>2000)=1P(X2000)=1P(X18502500200018502500)1Φ(200018502500)=1Φ(3)0.0013,

Arvon Φ(3) saa taulukosta. Ohjelmilla laskettaessa todennäköisyyden saa käyttäen alkuperäistä normaalijakaumaa komennoilla

   1 - normcdf(2000, 1850, sqrt(2500)) % Matlab
   1 - pnorm(2000, 1850, sqrt(2500)) # R

Esimerkki 5.2.5

Olkoon satunnaismuuttujan X varianssi σ2=25. Todennäköisyys sille, että n=50 kappaleen otoksen otoskeskiarvo ¯X poikkeaa muuttujan X odotusarvosta μ vähemmän kuin 2 yksikköä, on

P(|¯Xμ|<2)=P(2<¯Xμ<2)=P(2σ/n<¯Xμσ/n<2σ/n)Φ(21/2)Φ(21/2)=2Φ(22)10.995,

sillä keskeisen raja-arvolauseen nojalla¯Xμσ/n=¯Xμ1/2.N(0,1).

Ohjelmilla laskettaessa voidaan käyttää alkuperäistä normaalijakaumaa esimerkiksi odotusarvolla =0, sillä tulos ei riipu odotusarvosta. Kysytyn todennäköisyyden saa komennoilla

   normcdf(2, 0, sqrt(25/50)) - normcdf(-2, 0, sqrt(25/50)) % Matlab
   pnorm(2, 0, sqrt(25/50)) -  pnorm(-2, 0, sqrt(25/50)) # R

Binomijakauman normaaliapproksimaatio

Oletetaan, että XBin(n,p), missä parametri p on onnistumisen todennäköisyys n-toistokokeen yksittäisessä toistossa. Tällöin satunnaismuuttuja X voidaan esittää summana X=Y1+Y2++Yn, missä muuttujat YiBer(p)=Bin(1,p), i=1,2,,n ovat riippumattomia. Siten Y1,Y2,,Yn on otos muuttujasta YBin(1,p), missä muuttujan Y odotusarvo ja varianssi μ=p ja σ2=p(1p). Keskeisen raja-arvolauseen seurauksena löydetään siis keino approksimoida binomijakaumaa normaalijakauman avulla.

Seuraus 5.2.6

Jos XBin(n,p), niin sen normaaliapproksimaationa

X.N(np,np(1p)).

Huomautus 5.2.7

Jos p on lähellä arvoa 0 tai 1, niin normaaliapproksimaatio saattaa antaa huonoja arvioita binomijakauman todennäköisyyksille. Jos taas p on lähellä arvoa 0.5, niin normaaliapproksimaatiolla saadaan hyviä arvioita jo pienillä arvoilla n. Ohjeena voidaan sanoa, että mikäli np5 ja n(1p)5, niin normaaliapproksimaation arviot ovat käyttökelpoisia.

Diskreetin binomijakauman approksimoiminen jatkuvalla normaalijakaumalla sujuu suuremmalla tarkkuudella, kun suoritetaan niin sanottu jatkuvuuskorjaus. Siinä binomijakauman tapahtuman aXb rajoiksi muutetaan normaalijakaumaan liittyvissä laskuissa ne reaaliluvut c ja d, joiden lähimpään kokonaislukuun pyöristetyt arvot vielä sisältyvät välille [a,b]. Seuraavassa taulukossa on esimerkkejä jatkuvuuskorjauksista.

jakauma Bin(n,p)jatkuvuuskorjattu, jakauma N(np,np(1p))P(X3)P(X3.5)P(X<3)=P(X2)P(X2.5)P(X4)P(X3.5)P(X>4)=P(X5)P(X4.5)
Voisiko binomijakaumaa approksimoida normaalijakauman avulla
Jos XBin(100,0,2), niin
Fysiikan labrassa tapahtuu mittausvirheitä. Tehdään mittaus, jossa otetaan 100 otosta. Mittausvirheiden summan voidaan olettaa noudattavan likimain normaalijakaumaa.

Esimerkki 5.2.8

Erään tuottajan omenoista on 10 % pilaantuneita. Mikä on todennäköisyys, että satunnaisesti valitun 200 omenan erässä on korkeintaan 15 pilaantunutta?

Olkoon A= ‘omena pilaantunut’, jolloin P(A)=0.1. Merkitään X= ‘pilaantuneiden lukumäärä 200 omenan erässä’. Nyt XBin(200,0.1). Binomijakauman normaaliapproksimaation perusteella X.N(2000.1,2000.10.9)=N(20,18). Kysytty todennäköisyys on P(X15). Kun tälle tehdään jatkuvuuskorjaus, saadaan todennäköisyys

P(X15.5)=P(X201815.52018)=P(Z1.06)=Φ(1.06)=1Φ(1.06)=10.8554=0.1446.

Arvon Φ(1.06) saa taulukosta. Ohjelmilla laskettaessa todennäköisyyden 0.1444 saa käyttäen alkuperäistä normaalijakaumaa komennoilla

   normcdf(15.5, 20, sqrt(18)) % Matlab
   pnorm(15.5, 20, sqrt(18)) # R

Binomijakauman normaaliapproksimaation käytön yksi syy on laskennan yksinkertaistaminen, joka oli tärkeä peruste aikaisemmin ennen tietokoneiden käyttöä. Kun tehtävä lasketaan suoraan binomijakauman Bin(200,0.1) kertymäfunktion avulla saadaan tulos 0.1431 Matlab- ja R-komennoilla

   binocdf(15, 200, 0.1) % Matlab
   pbinom(15, 200, 0.1) # R

Laskettaessa normaalijakaumalla ilman jatkuvuuskorjausta P(X15)=0.119. Kun verrataan tuloksia binomijakaumalla avulla laskettuun todennäköisyyden arvoon 0.1431, nähdään että jatkuvuuskorjaus korjaa tuloksen hyvin lähelle oikeaa arvoa.

Huomautus 5.2.9

Keskeisestä raja-arvolauseesta on vielä edellä esitettyjä paljon yleisempi versio. Olkoon X1,X2, päättymätön jono riippumattomia satunnaismuuttujia, joiden jakaumista tiedetään vain odotusarvot μ1,μ2, ja varianssit σ21,σ22,. Määritellään tähän jonoon liittyvät satunnaismuuttujat Yn, nN summina

Yn=X1+X2++Xn,

jolloin

E(Yn)=μ1+μ2++μn=μYnVar(Yn)=σ21+σ22++σ2n=σ2Yn.

Jos n, niin varsin yleisin oletuksin standardoidun satunnaismuuttujan

Yn=YnμYnσYn

kertymäfunktio lähenee standardinormaalijakauman N(0,1) kertymäfunktiota. Suurilla indeksin n arvoilla voidaan tehdä normaaliapproksimaatio Yn.N(0,1), ja tällöin

Yn=X1+X2++Xn.N(μYn,σ2Yn).

Tässä on teoreettinen selitys sille miksi normaalijakauma on niin ‘normaali’ jakauma ja siksi yleinen. Jos satunnaismuuttujan voidaan ajatella olevan monen tekijän summa, niin satunnaismuuttuja on normaalijakautunut. Esimerkiksi mittausvirheet jakautuvat likimain normaalisti, sillä mittausvirhe on usein lukuisten pienten satunnaisvirheiden summa.

Palautusta lähetetään...