Processing math: 100%
Tämä kurssi on jo päättynyt.

Diskreetin satunnaismuuttujan jakauma

Satunnaiskokeen tulokset eivät aina ole lukuja välimatka- tai suhdeasteikoilla, vaan ne voivat olla myös luokitteluja tai laadullisesti järjestyviä kuvailuja. Jotta tällaisia tuloksia olisi helpompi tulkita ja käsitellä, ne usein koodataan numeerisiksi arvoiksi. Tähän koodaukseen käytetään funktiota X:ΩR, ja sitä sanotaan satunnaismuuttujaksi (random variable). Tässä materiaalissa satunnaiskokeiden tulokset ilmoitetaan usein suoraan reaalilukuina, jolloin satunnaismuuttuja samaistetaan suoraan tuloksiin ja funktiotulkintaa ei tarvita. Satunnaismuuttujia merkitään isoilla kirjaimilla X,Y,Z, ja niiden saamia arvoja pienillä kirjaimilla x,y,z,

Satunnaismuuttujaan liittyvien tapahtumien todennäköisyyksiä edustaa todennäköisyysjakauma, ja satunnaismuuttujia koskevan päätöksenteon pohjana on tuntea sen noudattama jakauma. Seuraavaksi tutustutaan erityyppisiin satunnaismuuttujiin ja niiden todennäköisyysjakaumiin.

Satunnaismuuttujan X sanotaan olevan diskreetti, jos sen otosavaruudessa Ω on äärellinen tai numeroituvasti ääretön määrä alkeistapauksia. Tällöin otosavaruuden alkiot voidaan luetella äärellisenä tai äärettömänä joukkona

Ω={x1,x2,,xn,}R.

Diskreetin satunnaismuuttujan X todennäköisyysjakauma tunnetaan, kun tiedetään eri alkioiden xi realisoitumisien todennäköisyydet P(X=xi), i=1,2,,n,

Määritelmä 2.1.1

Funktio f:R[0,1] on otosavaruuden Ω diskreetin satunnaismuuttujan X tiheysfunktio ((probability) density function, pdf), jos

  1. f(x)0 aina, kun xΩ,
  2. xΩf(x)=1,
  3. f(x)=P(X=x).

Huomautus 2.1.2

Satunnaismuuttujan X tiheysfunktio f(x) on siis määritelty kaikilla reaaliluvuilla. Tavallisesti tiheysfunktion muoto kerrotaan vain otosavaruudessa ja jätetään mainitsematta implisiittinen oletus f(x)=0, jos xΩ.

Arvoja f(x)=P(X=x), missä xΩ, kutsutaan pistetodennäköisyyksiksi, ja diskreetin satunnaismuuttujan tiheysfunktiosta käytetään myös nimitystä pistetodennäköisyysfunktio. Mielivaltaisen tapahtuman AΩ todennäköisyys saadaan laskemalla yhteen sen alkioiden pistetodennäköisyydet, eli

P(A)=xAf(x).

Näin määritelty todennäköisyysmitta P toteuttaa Kolmogorovin aksioomat.

Esimerkki 2.1.3

Olkoon satunnaismuuttujan X otosavaruus Ω=Z+={1,2,3,}, ja olkoot todennäköisyydet P(X=x)=(12)x, kun xΩ. Tällöin diskreetin muuttujan X jakauma ilmoitetaan tiheysfunktiolla

f(x)={(12)x,kun xZ+0,muulloin,

tai lyhyemmin f(x)=(12)x, kun xZ+. Sen jakaumaa voi havainnollistaa graafisesti janadiagrammilla, jossa arvon x kohdalle piirretään f(x)-pituinen pystysuora jana.

../_images/kuva22tiheys.svg

Funktio f on tiheysfunktio, sillä se saa vain ei-negatiivisia arvoja ja sen antamien kaikkien todennäköisyyksien summa on

xΩf(x)=k=1(12)k=12112=1.

Tiheysfunktiota voidaan käyttää todennäköisyyksien laskemisessa esimerkiksi seuraavasti:

P(X>2X<4)=P({X>2}{X<4})P(X<4)=P(X=3)P(X<4)=f(3)f(1)+f(2)+f(3)=1812+14+18=17.

Määritelmä 2.1.4

Diskreetin satunnaismuuttujan X kertymäfunktio (cumulative distribution function, cdf) on funktio F:R[0,1],

F(x)=P(Xx)=txf(t).

Diskreetin satunnaismuuttujan kertymäfunktio on kasvava porrasfunktio (kohdassa x=xi on f(xi)-pituinen hyppäys), sekä lisäksi

limxF(x)=0jalimxF(x)=1.

Jos kertymäfunktio tunnetaan, niin voidaan helposti laskea reaalilukuväleinä esitettävien tapahtumien todennäköisyyksiä. Esimerkiksi jos a<b joillekin otosavaruuden alkioille a ja b, niin

P(a<Xb)=P({X>a}{Xb})=P(X>a)+P(Xb)P({X>a}{Xb})=1P(Xa)+P(Xb)P(Ω)=F(b)F(a).

Vastaavasti voidaan osoittaa, että P(aXb)=F(b)F(a)+f(a), eli diskreetin satunnaismuuttujan tapauksessa on tärkeää huomata kuuluvatko rajat a ja b mukaan tapahtumaan vai eivät.

Esimerkki 2.1.5

Määritetään edellisen esimerkin satunnaismuuttujan X kertymäfunktio. Jos xZ+, niin

P(Xx)=xt=1(12)t=12(1(12)x)112=1(12)x,

joten kertymäfunktio on

F(x)={0,kun x<11(12)x,kun x1,

missä x on suurin reaalilukua x pienempi kokonaisluku (lattiafunktio).

../_images/kuva22kertyma.svg

Yksinkertainen diskreetti todennäköisyysjakauma muodostuu suoraan klassisen todennäköisyyden kautta symmetristen alkeistapausten otosavaruudessa.

Määritelmä 2.1.6

Diskreetti satunnaismuuttuja X noudattaa diskreettiä tasajakaumaa (discrete uniform distribution), jos sen otosavaruudessa Ω on äärellinen määrä n yhtä todennäköisiä alkeistapauksia. Tällöin satunnaismuuttujan X tiheysfunktio on

f(x)=1n,kun xΩ.

Usein alkeistapaukset ovat peräkkäisiä kokonaislukuja arvojen a ja b välissä, ja tällöin merkitään XTasd(a,b). Nyt myös Ω={a,a+1,a+2,,b}=[a,b]Z, otosavaruudessa on ba+1 alkiota ja tiheysfunktio

f(x)=1ba+1,kun xΩ.

Esimerkki 2.1.7

Nopanheiton tuloksen X otosavaruus Ω={1,2,3,4,5,6}, ja symmetriaoletuksen nojalla XTasd(1,6). Satunnaismuuttujan X tiheysfunktio on

f(x)=16,kun xΩ.

Esimerkki 2.1.8

Tiedetään että yhteensä N kappaleen joukossa on m kappaletta tuotetta A. Poimitaan yhteensä n kappaleen satunnaisotos ilman takaisinpanoa. Määritellään satunnaismuuttuja X kuvaamaan otoksessa olevien tuotteiden A lukumäärää. Mitä on P(X=x)?

Näytä/piilota ratkaisu

Jos otoksessa on tuotetta A yhteensä x kappaletta (0xn), niin muita kuin tuotetta A on nx kappaletta. Tuloperiaatteen nojalla tällaisia erilaisia palauttamatta valittuja otoksia on (mx)(Nmnx) kappaletta. Kaikkiaan n alkion otoksia voidaan muodostaa (Nn) kappaletta, joten klassisen todennäköisyyden mukaisesti

P(X=x)=(mx)(Nmnx)(Nn)=f(x).

Määritelmä 2.1.9

Jos satunnaismuuttujan X tiheysfunktio on

f(x)=(mx)(Nmnx)(Nn)

sen sanotaan noudattavan hypergeometrista jakaumaa (hypergeometric distribution) parametrein N, m ja n, XHyperg(N,m,n). Hypergeometrisen jakauman otosavaruus Ω on kaikkien ehdon

max{0,n(Nm)}xmin{n,m}

toteuttavien kokonaislukujen x joukko.

Esimerkki 2.1.10

Laatikossa on m=5 valkoista ja 7 mustaa palloa, yhteensä siis N=12 palloa. Näistä valitaan palauttamatta n=6 palloa. Otokseen valikoituvien valkoisten pallojen lukumäärä XHyperg(12,5,6), ja satunnaismuuttujan X otosavaruus on Ω={0,1,2,3,4,5}. Tiheysfunktio on siis

f(x)=(5x)(76x)(126),kun xΩ.

Nyt todennäköisyys sille, että otoksessa olisi vähintään 4 valkoista palloa on

P(X=4)+P(X=5)=f(4)+f(5)=(54)(72)(126)+(55)(71)(126)=521924+179240,1212.

Esimerkki 2.1.11

Kurssilla on 5 aihealuetta ja tentissä on 4 tehtävää satunnaisesti valituista neljästä aihealueesta, yksi kustakin. Kurssin 250 opiskelijaa valmistautuvat tenttiin opiskelemalla vain kaksi itse valitsemaansa aihealuetta täydellisesti. Kurssista pääsee läpi osaamalla puolet tenttitehtävistä. Kuinka moni

  1. pääsee läpi ensimmäisellä tenttikerralla,
  2. ei pääse läpi kolmella ensimmäisellä tenttikerralla?
Näytä/piilota ratkaisu
  1. Viidestä aihealueesta voidaan valita neljä yhteensä (54)=5 eri tavalla. Jokainen mahdollinen tehtäväpari sisältyy kolmeen näistä kombinaatioista, jolloin todennäköisyys opiskelijalle vastata juuri harjoittelemiensa aihealueiden kysymyksiin on 35=0,6. Koska opiskelija osaa vastata näiden aihealueiden tehtäviin täydellisesti, hän myös läpäisee tentin todennäköisyydellä 0,6. Läpi pääsevien opiskelijoiden lukumäärä on siis 0,6250=150.

  2. Määritellään satunnaismuuttuja X kuvaamaan erään opiskelijan läpäisemän tentin järjestysnumeroa, jolloin sen otosavaruus on Ω={1,2,3,}=Z+. Edellisen kohdan nojalla tiedetään, että P(X=1)=0,6, ja tämä on myös todennäköisyys onnistua missä tahansa annetussa tentissä. Etsitään satunnaismuuttujan X tiheysfunktio, eli lasketaan P(X=x), missä xΩ. Jos opiskelija läpäisee tentin x, hän on sitä ennen epäonnistunut yhteensä x1 kertaa. Kun oletetaan, että tenttikerroilla onnistuminen on toisistaan riippumatonta, joten

    P(X=x)=(10,6)x10,6=0,60,4x1=f(x).

    Opiskelijalle, joka ei läpäise ensimmäistä kolmea tenttiä on oltava X>3, ja tämän tilanteen todennäköisyys on

    P(X>3)=1P(X3)=1(P(X=1)+P(X=2)+P(X=3))=1(0,60,40+0,60,41+0,60,42)=0,064.

    Kolme ensimmäistä tenttiä reputtaa siis 0,064250=16 opiskelijaa.

Määritelmä 2.1.12

Jos toistokokeen (koodattuina) tulosvaihtoehtoina on vain 0 tai 1 ja vaihtoehdon 1 muista kokeista riippumaton todennäköisyys on p, niin ensimmäisenä tuloksen 1 antaneen toistokerran järjestysnumeroa kuvaava satunnaismuuttuja X noudattaa geometrista jakaumaa (geometric distribution), XGeom(p). Sen tiheysfunktio on

f(x)=p(1p)x1,kun xΩ={1,2,3,}=Z+.

Usein vaihtoehtoa 1 kutsutaan onnistumiseksi (success) ja vaihtoehtoa 0 epäonnistumiseksi (failure).

Geometrisessa jakaumassa on siis kyse ensimmäisen onnistumisen esiintymisestä toistokokeessa. Tässä esimerkissä XGeom(0.6).

Mikä tämän luvun diskreeteistä jakaumista sopii seuraavanlaisen tilanteen mallintamiseen?

Laatikossa on 3 punaista ja 4 vihreää palloa, ja pitäisi laskea todennäköisyys jomman kumman värin ensiesiintymiselle jälkimmäisen noston yhteydessä kahden noston tapauksessa, kun ensimmäiseksi nostettu pallo palautetaan takaisin laatikkoon.

Palautusta lähetetään...