Processing math: 100%

Odotusarvo, varianssi ja keskihajonta ja fraktiilit

Satunnaismuuttujien todennäköisyysjakaumia voidaan luonnehtia erilaisin tunnusluvuin. Pelkästään jakauman tyypin ja sen tunnuslukujen avulla voidaan tehdä hyödyllisiä johtopäätöksiä tarkasteltavasta satunnaiskokeesta. Tavallisimmat jakauman sijaintia kuvaavat tunnusluvut ovat odotusarvo, varianssi ja keskihajonta sekä erilaiset fraktiilit. Odotusarvo ja fraktiileista mediaani ilmoittavat jakauman keskikohdan, kun taas varianssi ja keskihajonta mittaavat jakauman hajaantumisen suuruutta.

Diskreetit satunnaismuuttujat

Määritelmä 3.1.1

Diskreetin satunnaismuuttujan X, jonka otosavaruus on Ω ja tiheysfunktio f(x), odotusarvo (mean, expected value) E(X), varianssi (variance) Var(X) ja keskihajonta (standard deviation) D(X) ovat

E(X)=μ=xΩxf(x),Var(X)=σ2=xΩ(xμ)2f(x),D(X)=σ=Var(X).
Tehtävää ladataan...

Huomautus 3.1.2

Jos otosavaruudessa on ääretön määrä alkioita, on tunnusluku olemassa vain, kun sen määrittelevä sarja suppenee ja summa on termien järjestyksestä riippumaton. Diskreetin muuttujan odotusarvo on mahdollisten arvojen x todennäköisyyksillään P(X=x)=f(x) painotettu keskiarvo. Varianssi taas on odotusarvosta laskettujen neliöityjen poikkeamien (xμ)2 todennäköisyyksillä painotettu keskiarvo.

Fysikaalisesta näkökulmasta satunnaismuuttujan odotusarvolla ja varianssilla on seuraavanlaiset tulkinnat. Jos ajatellaan, että yhden yksikön verran “todennäköisyysmassaa” on jaettu otosavaruuden Ω pisteisiin x lukusuoralla pistetodennäköisyyden f(x) verran, niin odotusarvo ilmoittaa kyseisen lukusuoran massakeskipisteen ja varianssi sen hitausmomentin massakeskipisteakselin suhteen.

Esimerkki 3.1.3

Arpanopan silmäluvun XTasd(1,6) tiheysfunktio on f(x)=16 ja otosavaruus Ω={1,2,3,4,5,6}. Määritelmän mukaan odotusarvo ja varianssi ovat

E(X)=xΩxf(x)=166x=1x=16(1+2+3+4+5+6)=72=3.5Var(X)=xΩ(xμ)2f(x)=166x=1(x72)2=16((52)2+(32)2+(12)2+(12)2+(32)2+(52)2)=3512=2.9167.

Tunnetuille jakaumille on laskettu valmiiksi kaavat odotusarvolle ja varianssille. Seuraavassa lauseessa annetaan aikaisemmin esillä olleiden diskreettien jakaumien odotusarvot ja varianssit. Todistus sivuutetaan.

Lause 3.1.4

Jos XTasd(1,n), niin

E(X)=n+12jaVar(X)=n2112.

Jos XHyperg(N,m,n), niin

E(X)=nmNjaVar(X)=nm(Nm)(Nn)N3N.

Jos XGeo(p), niin

E(X)=1pjaVar(X)=1pp2.

Jos XBer(p), niin

E(X)=pjaVar(X)=p(1p).

Jatkuvat satunnaismuuttujat

Määritelmä 3.1.5

Jatkuvan satunnaismuuttujan X, jonka otosavaruus on Ω ja tiheysfunktio f(x), odotusarvo E(X), varianssi Var(X) ja keskihajonta D(X) ovat

E(X)=μ=xf(x)dx,Var(X)=σ2=(xμ)2f(x)dx,D(X)=σ=Var(X).

Jälleen määritelmä edellyttää, että asianmukaiset integraalit suppenevat. Muussa tapauksessa tunnuslukuja ei ole olemassa. Huomaa samankaltaisuus diskreetin ja jatkuvan muuttujan tunnuslukujen määritelmissä: jatkuvassa tapauksessa summaus yksinkertaisesti korvataan integroinnilla. Jatkuvan satunnaismuuttujan odotusarvoon ja varianssiin liittyy samankaltainen fysikaalinen tulkinta kuin diskreettiinkin tapaukseen.

Esimerkki 3.1.6

Olkoon X jatkuva satunnaismuuttuja, jonka tiheysfunktio

f(x)=2x,kun 0<x<1.

Tällöin

E(X)=xf(x)dx=102x2dx=/1023x3=23=0.667,Var(X)=(xμ)2f(x)dx=102x(x23)2dx=10(2x383x2+89x)dx=/10(12x489x3+49x2)=118=0.056.

Tällaisessa tilanteessa, missä jakauma ei ole mikään tunnettu jakauma, laskut Matlabilla ja R:ssä täytyy tehdä määrättyinä integraaleina. Matlabilla tulokset saadaan komennoilla

   syms x  % muodostetaan symbolinen muuttuja x|
   Ex = int(x*2*x, x, 0, 1)  % odotusarvo|
   Var = int((x-Ex)^2*2*x, x, 0, 1)  % varianssi

R:ssä laskut saadaan numeerisesti komennoilla

   xf <- function(x) {x*2*x}  # muodostetaan funktio x*f(x)
   Ex <- integrate(xf, 0, 1)  # odotusarvo muuttujaan Ex
   xxf <- function(x) {(x-Ex[[1]])^2*2*x }  # funktio (x-E(x))^2*f(x)
   Var <- integrate(xxf, 0, 1)  # odotusarvo muuttujaan Var

Muuttuja Ex voi olla lista, jossa 1. komponentti on odotusarvo ja 2. komponentti on tulokseen sisältyvän absoluuttisen virheen maksimi. Siksi varianssia laskettaessa käytetään valitaan listan ensimmäinen alkio muodossa Ex[[1]].

Kuitenkin tunnetujen jakaumien odotusarvoille ja variansseille on määritetty valmiita kaavoja. Aikaisemmin esillä olleiden jatkuvien jakaumien odotusarvot ja varianssit annetaan seuraavassa lauseessa. Myöhemmin uusien jakaumien yhteydessä annetaan aina myös odotusarvojen ja varianssien kaavat.

Lause 3.1.7

Jos XTas(a,b), niin

E(X)=a+b2jaVar(X)=(ba)212.

Jos XExp(λ), niin

E(X)=1λjaVar(X)=1λ2.

Fraktiilit

Odotusarvo on yksi jakauman keskikohtaa kuvaava tunnusluku. Toinen yleisesti käytetty keskiluku on mediaani, joka on erikoistapaus ns. fraktiileista eli prosenttipisteistä.

Määritelmä 3.1.8

Satunnaismuuttujan X p-fraktiili eli 100p-prosenttipiste on luku xp,

jolle P(Xxp)=p

0.5-fraktiilia eli 50-prosenttipistettä kutsutaan mediaaniksi (median) Md(X).

Mediaanille P(XMd(x))=0.5.

0.25-fraktiili eli 25-prosenttipiste on nimeltään 1. kvartiili eli alakvartiili.

0.75-fraktiili 75-prosenttipiste on 3. kvartiili eli yläkvartiili.

10%:n välein olevia prosenttipisteitä kutsutaan desiileiksi.

Fraktiilit voidaan esittää myös kertymäfunktion F(x)=P(X<x) avulla. Mediaani toteuttaa ehdon F(Md(X))=0.5. Mediaani jakaa jakauman kahteen todennäköisyydeltään yhtäsuureen osaan. Yleisesti p-fraktiili xp on luku, jolle F(xp)=p.

Kuvassa on esitetty, miten kvartiilit jakavat jakauman todennäköisyyden neljään yhtäsuureen osaan. 0. kvartiili on jakauman otosavaruuden alaraja, 2. kvartiili on sama kuin mediaani ja 4. kvartiili on otosavaruuden yläraja.

../_images/fraktiili.png

Diskreeteillä satunnaismuuttujilla kertymäfunktio on porrasfunktio ja ei välttämättä saa lainkaan arvoa p fraktiilia xp laskettaessa. Fraktiiliksi valitaan se otosavaruuden pienin alkio xi, jolle kertymäfunktio on vähintään p. Ts. edellisellä alkiolla F(xi1)<p, mutta F(xi)p.

Fraktiilit saa ohjelmilla käyttämällä kertymäfunktion käänteisfunktiota. Yleisesti fraktiili xp saadaan Matlabilla komennolla

   nimiinv(p,parametrit)

missä nimi on jakauman yksilöivä nimi, p on fraktiiliin liittyvä todennäköisyys ja parametrit ovat jakauman parametrit, yksi tai useampia.

R:ssä vastaava komento on

   qnimi(p,parametrit)

Esimerkki 3.1.9

Eksponenttijakaumaa noudattavan satunnaismuuttujan TExp(λ) mediaani on

Md(T)=ln(2)λ

Tämän voi varmistaa laskemalla todennäköisyyden P(Tln(2)λ) esimerkiksi integroimalla tiheysfunktion f(t)=λeλt välillä [0,ln(2)λ] ja saa arvoksi 12.

Esimerkiksi jos TExp(2), niin mediaani on Md(T)=ln(2)2=0.3466.

Matlabilla tämän saa komennolla

   expinv(0.5, 1/2) 

Huomaa, että Matlabissa eksponenttijakauma on määritelty toisella tavalla ja siksi toiseksi parametriksi valitaan käänteisluku 1/2.

R:ssä sama mediaani lasketaan komennolla

   qexp(0.5, 2)

Esimerkki 3.1.10

Satunnaismuuttuja XGeo(0.2) noudattaa geometrista jakaumaa tiheysfunktiona f(x)=p(1p)x1 otosavaruudessa Ω={1,2,3,}. Kun lasketaan kertymäfunktion arvoja, saadaan

F(1)=f(1)=0.20.80=0.2F(2)=F(1)+f(2)=0.2+0.20.81=0.36F(3)=F(2)+f(3)=0.36+0.20.82=0.488F(4)=F(3)+f(4)=0.488+0.20.83=0.5904

Koska F(3)=0.488<0.5 ja F(4)=0.59040.5, on tämän geometrisen jakauman mediaani Md(X)=4

Matlabilla saadaan komennolla

   geoinv(0.5, 0.2)

mediaaniksi Md(X)=3. Vastaus poikkeaa edellisestä siksi, että Matlabin käyttämä satunnaismuuttujan tulkinta on epäonnistumisten määrä ennen 1. onnistumista otosavaruutena Ω={0,1,2,}. Tämän kurssimonisteen käyttämä tulkinta puolestaan on monennellako toistokerralla tulee 1. onnistuminen otosavaruutena Ω={1,2,3,}.

R:ssä vastaava komento on ja mediaani Md(X)=3 saadaan komennolla

   qgeom(0.5, 0.2)

Esimerkki 3.1.11

Odotusarvo ja mediaani ovat molemmat jakauman keskikohtaa luonnehtivia tunnuslukuja. Ne voivat poiketa toisistaan paljonkin. Vastaavat käsitteet tilastollisessa havaintoaineistossa ovat (otos)keskiarvo ja (otos)mediaani. Otoskeskiarvo on muuttujan arvojen summa jaettuna lukumäärällä ja otosmediaani on suuruusjärjestykseen laitettujen arvojen keskimmäinen arvo tai kahden keskimmäisen arvon keskiarvo, jos arvoja on parillinen määrä. Esimerkiksi aineistossa on yrityksen kaikkien työntekijöiden kuukausipalkat ja on saatu arvot 1500, 1600, 1700, 1800, 20000, joista yksi on selvästi muita suurempi. Nyt keskiarvo on 5320 ja mediaani on 1700. Tässä mediaani kuvaa paremmin keskimääräistä palkkatasoa.

Palautusta lähetetään...