Processing math: 100%

Tilastollinen ja klassinen todennäköisyys

Tapahtuman todennäköisyyden käsitteelle on monia eri tulkintoja. Sen tavoite on mitata tapahtuman realisoitumisen uskottavuutta tai mahdollisuutta reaaliluvulla väliltä [0,1]. Reaaliluku 0 valitaan kuvaamaan mahdotonta tapahtumaa ja reaaliluku 1 täysin varmaa tapahtumaa, eli koko otosavaruutta Ω. Varsinainen ongelma on pohtia, miten muiden tapahtumien todennäköisyyttä tulisi mitata.

Subjektiivinen todennäköisyys on soveltajan näkemys vallitsevasta tilanteesta. Kyse voi olla esimerkiksi tulevaisuuden ainutkertaisen tapahtuman ennustamisesta väittämällä “ensi vuonna ostan uuden auton 70 %:n todennäköisyydellä”. Tiedon taustalla on jonkinlaisia subjektiivisia tietoja ja olettamuksia, jotka puetaan yhdeksi luvuksi kuvaamaan vastaajan uskomuksen varmuutta. Tämä on tavallinen, arkikielen mukainen todennäköisyyden tulkinta, mutta se ei kelpaa matematiikan käsitykseksi todennäköisyydestä.

Tilastollinen todennäköisyys

Ensimmäinen mielekäs todennäköisyyden tulkinta kumpuaa satunnaiskokeiden suorittamisesta. Kun sama koe suoritetaan n kertaa samoissa olosuhteissa, puhutaan n-toistokokeesta. Jos fn(A) merkitsee tapahtuman A esiintymiskertojen lukumäärää eli frekvenssiä n-toistokokeessa, niin sen suhteellinen frekvenssi (relative frequency)

pn(A)=fn(A)n

edustaa tapahtuman A esiintymistiheyttä suhteessa kaikkiin tapahtumiin. Tällaisessa frekvenssitulkinnassa määritellään tapahtuman A tilastollinen todennäköisyys (statistical probability) suhteellisen frekvenssin “raja-arvona”, kun koetoistojen lukumäärä n kasvaa rajatta:

P(A)=''limn'' pn(A).

Koska äärettömän pitkiä toistokokeita ei voida suorittaa, tilastollista todennäköisyyttä arvioidaan jollakin riittävän suurella toistokokeiden määrällä n.

Frekvenssitulkinta on erityisen käyttökelpoinen sovelluksissa. Reaalimaailmassa on runsaasti kokeita tai havaintoja, joissa tarkasteltavan tapahtuman suhteellinen frekvenssi tuntuu suppenevan siinä mielessä, että suhteelliset frekvenssit pn(A),pn+1(A),,pn+k(A) tapahtumalle A poikkeavat toisistaan hyvin vähän, kun n on riittävän suuri. Soveltajan tehtävänä on arvioida suhteellisen frekvenssin “raja-arvolle” mahdollisimman tarkka arvo.

Monet käytännön elämän tapahtumien todennäköisyydet ovat juuri tilastollisia todennäköisyyksiä, sillä ne perustuvat havainnoista tehtyihin tilastoaineistoihin. Esimerkiksi väite, jonka mukaan laite rikkoutuu takuuaikanaan todennäköisyydellä 0.01, perustuu tavallisesti pitkäaikaiseen seurantaan, jossa keskimäärin yksi sadasta laitteesta on rikkoontunut takuuaikanaan. Havaintojen pohjalta oletetaan, että rikkoutumisen noudattaa jatkossakin tätä säännönmukaisuutta.

Frekvenssitulkinnan käyttö todennäköisyysmitalle herättää monia kysymyksiä eikä ole matemaattisesti tyydyttävä. Miten määritellään esimerkiksi äärettömän pitkä koetoistojen sarja tai suhteellisten frekvenssien muodostaman jonon suppeneminen? Miten äärellisen toistokokeen perusteella voidaan olettaa, että ilmiö käyttäytyy jatkossakin samalla tavalla?

Klassinen todennäköisyys

Oletetaan, että kokeen otosavaruudessa on äärellinen määrä N alkeistapauksia, jotka ovat kaikki yhtä mahdollisia. Tällöin tapahtuman AΩ klassinen todennäköisyys on

P(A)=|A|N,

missä |A| tarkoittaa joukon A alkioiden lukumäärää (cardinality), eli tapahtumalle A suotuisien (favourable) alkeistapausten lukumäärää. Tapahtuman A klassinen todennäköisyys on siis sen suotuisten alkeistapausten lukumäärän suhde kaikkien alkeistapausten lukumäärään.

Jotta klassista todennäköisyyttä voidaan soveltaa, alkeistapausten määrän |Ω|=N on oltava äärellinen ja niiden tulee olla yhtä mahdollisia, eli symmetrisiä (symmetric). Havaitaan, että jokaisen alkeistapauksen aΩ todennäköisyys on tällöin

P(a)=1N.

Jos sovelluksissa satunnaiskokeiden alkeistapaukset eivät ole symmetrisiä, ei tällöin voida käyttää klassisen todennäköisyyden määritelmää.

Huomautus 1.2.1

Tarkkaan ottaen yllä esitetty “määritelmä” ei ole määritelmä: mitä ilmaus “yhtä mahdollisia” oikein tarkoittaa, kun todennäköisyyttä vasta ollaan määrittelemässä? Klassinen todennäköisyys nojaakin yleiseen intuitioon symmetrisyydestä. Tasapainoisen nopan eri tulosvaihtoehtojen oletetaan olevan yhtä mahdollisia. Samoin jokainen seitsemän numeron lottorivi on yhtä mahdollinen. Yleisestikin yhden alkion satunnainen arvonta äärellisestä perusjoukosta vastaa käsitystä klassisesta todennäköisyydestä.

Klassisessa todennäköisyydessä suotuisten ja kaikkien alkeistapausten lukumäärien laskeminen saattaa olla vaikea kombinatorinen tehtävä. Seuraavassa annetaan lyhyt tiivistelmä käyttökelpoisia kombinatorisia käsitteitä.

Lause 1.2.2 (Tuloperiaate)

Jos koe voidaan suorittaa p eri vaiheessa ja vaiheessa i eri tulosmahdollisuuksia on Ni, niin koko kokeessa eri tulosmahdollisuuksia on

N=N1N2Np=pi=1Ni.

Esimerkki 1.2.3

Kun henkilöllä on 3 hattua, 5 takkia, 2 housut ja 3 kengät, hän voi valita 3523=90 erilaista asukokonaisuutta.

Noppaa heitetään neljästi. Jokaisessa vaiheessa on 6 tulosvaihtoehtoa, joten erilaisia tulosnelikkoja (n1,n2,n3,n4), missä ni{1,2,3,4,5,6}, on 6666=64=1296.

Yhteensä 6 henkilöä voidaan asettaa jonoon 720 tavalla. Nimittäin jonossa ensimmäiselle paikalle on 6 vaihtoehtoa ja toiselle 5, koska samaa henkilöä ei valita kahdesti. Jatkamalla samaan tapaan nähdään, että erilaisia jonoja on 654321=6!=720.

Yleisesti jonon, eli järjestetyn joukon (a1,a2,,an) alkioiden asettamista eri järjestykseen sanotaan permutoinniksi. Jokainen näin saatu uusi jono on permutaatio (permutation). n-alkioisella jonolla on tuloperiaatteen perusteella luvun n kertoman

n!=12n

verran erilaisia permutaatioita. Kertoman määritelmässä sovitaan, että 0!=1.

Olkoon joukossa n alkiota ja kn. Kyseisen joukon k-permutaatio on mikä tahansa joukon alkioista palauttamatta muodostettu k-alkioinen jono. Tapoja valita ensimmäinen alkio on n, toinen n1 ja kolmas n2 kappaletta. Lopulta viimeinen alkio voidaan valita (n(k1)):llä tavalla, joten tuloperiaatteen nojalla n-alkioisella joukolla on erilaisia k-permutaatioita

n(n1)(n2)(n(k1))=n!(nk)!

kappaletta.

Esimerkki 1.2.4

Pesäpallossa joukkueella on sisävuorossa yhteensä 12 pelaajaa (9 varsinaista pelaajaa ja 3 jokeripelaajaa). Näin erilaisia lyöntijärjestyksiä näille 12 pelaajalle on 1211101=12!=479001600

Erilaisia 4 pelaajan lyöntijärjestyksiä on 1211109=12!8!=11880

Jos halutaan, että kolme ensimmäistä lyöjää ovat varsinaisia pelaajia ja neljäs on jokeripelaaja, niin erilaisia järjestyksiä on tuloperiaatteen mukaan 9873=1512

Edellä olevissa esimerkeissä oli kyse jonoista, joissa alkioiden järjestyksellä on merkitystä. Esimerkiksi (1,2,3)(1,3,2) ovat kaksi eri jonoa. Jos alkioiden järjestyksellä ei ole merkitystä, kyse on otosavaruuden osajoukoista, missä esimerkiksi {1,2,3}={1,3,2}.

Annetun n-alkioisen joukon k-kombinaatio (combination) on joukon k-alkioinen osajoukko. Erilaisten osajoukkojen lukumäärä saadaan, kun poistetaan jonojen joukosta saman jonon eri permutaatiot.

Lause 1.2.5

n-alkioisen joukon k-kombinaatioiden lukumäärä on binomikerroin

(nk)=n!k!(nk)!,

missä 1kn.

Piilota/näytä todistus

Olkoon k-kombinaatioiden lukumäärä x. Koska jokaisella k-kombinaatiolla (osajoukolla) on k! erilaista k-permutaatioita, niin alkuperäisen joukon k-permutaatioiden lukumäärä on

xk!=n!(nk)!.

Tulos seuraa jakamalla tämä yhtälö puolittain luvulla k!.

Kun puhutaan joukon–esimerkiksi korttipakan korttien–jäsenten k-kombinaatioista eli k:n eri yhdistelmän lukumäärästä, tarvitseeko korttien valitsemisjärjestystä ottaa huomioon näiden laskussa?
Entä permutaatioiden eli jonojen tapauksessa?

Mikä ovat luvun k kertomalla k! jakamisen merkitys binomikertoimessa

(nk)=n!k!(nk)!?

Esimerkki 1.2.6

Tutkitaan erilaisia merkkijonoja, jotka voidaan muodostaa kirjaimista a–z. Kirjaimia on yhteensä 26, ja niistä 6 on vokaaleja 20 ja konsonantteja.

  1. Erilaisia 5 kirjaimen merkkijonoja on tuloperiaatteen mukaan 2626262626=265=11 881 376. Tässä siis jokainen kirjain voidaan valita useamman kerran.

  2. Sellaisia merkkijonoja, joissa kirjaimet ovat järjestyksessä konsonantti + vokaali + konsonantti + sama kuin edellinen konsonantti + vokaali (siis esimerkiksi ‘kello’) on tuloperiaatteen mukaan 2062016=14 400.

  3. Jos yhden kirjaimen voi valita merkkijonoon vain kerran, on kyse kirjaiten a–z permutaatioista. Nyt erilaisia 5 kirjaimen merkkijonoja, joissa voi esiintyä yksi kirjain vain kerran on 2625242322=7 893 600.

  4. Jos halutaan vaihtaa jonkin merkkijonon kirjaimien järjestystä on kyse anagrammista. Esimerkiksi sanan “aitat” eräs anagrammi on “taiat”. Sanan “aitat” anagrammien lukumäärää laskettaessa tulee ottaa huomioon kirjaimien a ja t esiintyminen kahdesti. Kaikkiaan 5 eri kirjainta voidaan järjestää 5!=120 eri tavalla. Jokainen permutaatio esiintyy yhteensä 2!2!=4 kertaa, sillä a- ja t-kirjaimet voidaan kummatkin järjestää 2!=2 eri tavalla. Siksi sanan “aitat” erilaisia anagrammeja on 5!2!2!=30 kappaletta.

  5. Edellä on ollut kyse merkkijonoista, joissa kirjainten järjestyksellä on merkitystä. Tutkitaan nyt erilaisia kirjainjoukkoja, joissa järjestyksellä ei ole merkitystä. 26 kirjaimesta voidaan valita erilaisia 5 kirjaimen joukkoja

    (265)=26!5!21!=26252423225!=65 780

    kappaletta. Laskun toiseksi viimeisestä muodosta saadaan binomikertoimelle seuraava tulkinta: erilaisten 5 alkion osajoukkojen määrä saadaan jakamalla 5-permutaatioiden määrä 2625242322 erilaisilla 5 alkion järjestyksillä 5!.

  6. Sellaisia 5 kirjaimen joukkoja, joissa on kaksi eri vokaalia ja kolme eri konsonanttia on tuloperiaatteen mukaan

    (62)(203)=6!2!4!20!3!17!=17 100.
  7. Klassisia todennäköisyyksiä laskettaessa tutkitaan suotuisten alkeistapausten ja kaikkien alkeistapausten lukumäärien osamäärää. Kohtien 1 ja 3 perusteella todennäköisyys sille, että 5 kirjaimen merkkijonossa on 5 eri kirjainta on

    7 893 60011 881 3760.6644.

    Vastaavasti kohtien 5 ja 6 perusteella todennäköisyys sille, että 5 kirjaimen joukossa on kaksi eri vokaalia ja kolme eri konsonanttia on

    17 10065 7800.2600.

    Laskettaessa edellisiä esimerkkejä Matlabilla tai R:llä voidaan käyttää valmiita funktioita kertomien ja binomikertoimen laskemiseen. Matlabin komennot ovat

       factorial(n) % kertoma n!
       nchoosek(n,k) % binomikerroin n yli k:n

    Esimerkiksi 2625242322 lasketaan

       factorial(26)/factorial(21)

    ja (265) lasketaan

       nchoosek(26,5)

    Vastaavat R:n komennot ovat

       factorial(n) # kertoma n!
       choose(n,k) # binomikerroin n yli k:nn

    Esimerkiksi 2625242322 lasketaan

       factorial(26)/factorial(21)

    ja (265) lasketaan

       choose(26,5)
Palautusta lähetetään...