- MATH.APP.210
- 7. Liitteet
- 7.1 Todennäköisyysjakaumia
Todennäköisyysjakaumia¶
Seuraavassa tiivistetään kurssilla esillä olleet diskreetit ja jatkuvat todennäköisyysjakaumat. Jokaisesta esitellään hyödyllisin osin otosavaruus, tiheysfunktio, odotusarvo, varianssi, momentit generoiva funktio, Matlab- ja R-komennot, esimerkkikuvaajia ja lisätietoja.
Diskreetti tasajakauma, \Tasd(a, b)¶
Otosavaruus: \Omega = [a, b] \cap \Z = \{i \in \Z : a \leq i \leq b\}
Tiheysfunktio: P(X = x) = f(x) = \dfrac{1}{b-a+1}
Odotusarvo: \rE(X) = \dfrac{a + b}{2}
Varianssi: \Var(X) = \dfrac{(b - a + 1)^2 - 1}{12}
Momentit generoiva funktio: M(t) = \begin{cases}1, & \text{kun } t = 0 \\ \dfrac{1}{b - a + 1}\dfrac{e^{ta} - e^{t(b + 1)}}{1 - e^{t}}, & \text{kun } t \not= 0\end{cases}
Matlab, X\sim \Tasd(1, n) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
unidpdf(x,n) unidcdf(x,n) unidinv(x,n)
R, X\sim \Tasd(a, b) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
ddunif(x,a,b) pdunif(x,a,b) qdunif(x,a,b)
Lisätietoja:
- Englanniksi discrete uniform distribution, \mathrm{Unifd}(a, b).
- Jos otosavaruuden alkeistapahtumat ovat symmetriset (klassinen todennäköisyys), niin niistä muodostuva satunnaismuuttuja noudattaa diskreettiä tasajakaumaa.
- Esimerkiksi nopan- tai kolikonheiton tulosten todennäköisyydet saadaan diskreetistä tasajakaumasta.
- \Tasd(0, 1) = \Ber(0{,}5).
Bernoullin jakauma, \Ber(p)¶
Otosavaruus: \Omega = \{0, 1\}
Tiheysfunktio: P(X = x) = f(x) = p^x(1-p)^{1-x}
Odotusarvo: \rE(X) = p
Varianssi: \Var(X) = p(1 - p)
Momentit generoiva funktio: M(t) = pe^t + 1 - p
Matlab, X\sim \Ber(p)=\Bin(1,p) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
binopdf(x,1,p) binocdf(x,1,p) binoinv(x,1,p)
R, X\sim \Ber(p)=\Bin(1,p) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
dbinom(x,1,p) pbinom(x,1,p) qbinom(x,1,p)
Lisätietoja:
- Englanniksi Bernoulli distribution.
- Bernoullin jakaumaa noudattava satunnaismuuttuja X saa toisen kahdesta arvosta, jotka on koodattu luvuiksi 0 ja 1. Tapauksen X = 1 (onnistuminen) todennäköisyys on p ja tapauksen X = 0 (epäonnistuminen) 1 - p.
- Esimerkiksi syntyvän lapsen sukupuoli tai tentissä onnistuminen voidaan esittää Bernoullin jakaumaa noudattavalla satunnaismuuttujalla.
- Bernoullin kokeella tarkoitetaan Bernoullin jakaumaa noudattavan satunnaismuuttujan koetta.
- \Ber(0{,}5) = \Tasd(0, 1) ja \Ber(p) = \Bin(1, p).
Binomijakauma, \Bin(n, p)¶
Otosavaruus: \Omega = \{0, 1, 2, \ldots, n\}
Tiheysfunktio: \displaystyle P(X = x) = f(x) = \binom{n}{x} p^x(1-p)^{n-x}
Odotusarvo: \rE(X) = np
Varianssi: \Var(X) = np(1 - p)
Momentit generoiva funktio: M(t)=(pe^t+1-p)^n
Matlab, X\sim \Bin(n,p) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
binopdf(x,n,p) binocdf(x,n,p) binoinv(x,n,p)
R, X\sim \Bin(n,p) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
dbinom(x,n,p) pbinom(x,n,p) qbinom(x,n,p)
Lisätietoja:
- Englanniksi binomial distribution.
- f(x) kuvaa yhteensä x onnistumisen todennäköisyyttä n riippumattomassa jakaumaa \Ber(p) noudattavassa Bernoullin kokeessa.
- Esimerkiksi viiden klaavan saaminen 10 kolikonheiton sarjassa.
- Jos X_1 \sim \Bin(n, p) ja X_2 \sim \Bin(m, p) ovat riippumattomia, niin niiden summa X_1 + X_2 \sim \Bin(n + m, p).
- \Bin(1, p) = \Ber(p).
- \Bin(n, p) \approx \Poi(np), kun n on suuri, p pieni ja np \ll n.
- \Bin(n, p) \approx \rN(np, np(1 - p)), kun np \geq 5 ja n(1 - p) \geq 5.
Poissonin jakauma, \Poi(\lambda)¶
Otosavaruus: \Omega = \N \cup \{0\} = \{0, 1, 2, \ldots\}
Tiheysfunktio: P(X = x) = f(x)=\dfrac{\lambda ^x}{x!}e^{-\lambda}
Odotusarvo: \rE(X) = \lambda
Varianssi: \Var(X) = \lambda
Momentit generoiva funktio: M(t)=e^{-\lambda}e^{\lambda e^t}
Matlab, X\sim \Poi(lambda) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
poisspdf(x,lambda) poisscdf(x,lambda) poissinv(x,lambda)
R, X\sim \Poi(lambda) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
dpois(x,lambda) ppois(x,lambda) qpois(x,lambda)
Lisätietoja:
- Englanniksi Poisson distribution.
- Harvinaisten, riippumattomien ja keskimäärin vakiotahdilla esiintyvien tapahtumien todennäköisyysjakauma.
- Jos suoritetaan suuri määrä n jakaumaa \Ber(p) noudattavia Bernoullin kokeita ja p on pieni, niin onnistumisien lukumäärä noudattaa likimain Poissonin jakaumaa ja \lambda \approx np.
- Esimerkiksi tuotantovirheiden esiintyminen tai fotonien osuminen sensorille.
- \Poi(np) \approx \Bin(n, p), kun n on suuri, p on pieni ja np \ll n.
- Jos X_1 \sim \Poi(\lambda_1) ja X_2 \sim \Poi(\lambda_2) ovat riippumattomia, niin X_1 + X_2 \sim \Poi(\lambda_1 + \lambda_2).
Geometrinen jakauma, \Geom(p)¶
Otosavaruus: \Omega = \Z_+ = \{1, 2, 3, \ldots\}
Tiheysfunktio: P(X = x) = f(x) = p(1 - p)^{x - 1}
Odotusarvo: \rE(X) = \dfrac{1}{p}
Varianssi: \Var(X) = \dfrac{1 - p}{p^2}
Momentit generoiva funktio: M(t) = \dfrac{pe^t}{1-(1-p)e^t}
Matlab, X\sim \Geom(p) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
Huom. Matlabissa x tarkoittaa epäonnistumisten määrää ennen onnistumista, kun taas yllä x on 1. onnistumisen toistokerta.
geopdf(x,p) geocdf(x,p) geoinv(x,p)
R, X\sim \Geom(p) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
Huom. R:ssä x tarkoittaa epäonnistumisten määrää ennen onnistumista, kun taas yllä x on 1. onnistumisen toistokerta.
dgeom(x,p) pgeom(x,p) qgeom(x,p)
Lisätietoja:
- Englanniksi geometric distribution.
- f(x) kuvaa todennäköisyyttä, että ensimmäinen onnistuminen osuu x:lle yrittämälle jonossa riippumattomia jakaumaa \Ber(p) noudattavia Bernoullin kokeita.
- Esimerkiksi ensimmäisen klaavan saaminen seitsemännellä yrittämällä kolikonheittojen sarjassa.
Hypergeometrinen jakauma, \Hyperg(N, m, n)¶
Otosavaruus: \Omega = \{x \in \Z : \max\{0, n - (N - m)\} \leq x \leq \min\{n, m\}\}
Tiheysfunktio: \displaystyle P(X = x) = f(x) = \frac{\binom{m}{x}\binom{N - m}{n - x}}{\binom{N}{n}}
Odotusarvo: \rE(X) = \dfrac{nm}{N}
Varianssi: \Var(X) = \frac{nm(N - m)(N - n)}{N^3 - N}
Matlab, \Hyperg(N, m, n) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
hygepdf(x,N,m,n) hygecdf(x,N,m,n) hygeinv(x,N,m,n)
R, \Hyperg(N, m, n) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
Huom. R:ssä parametrit esitetään toisella tavalla. Komennossa paramterit ovat (x, m, N-m, n).
dhyper(x,m,N-m,n) phyper(x,m,N-m,n) qhyper(x,m,N-m,n)
Lisätietoja:
- Englanniksi hypergeometric distribution.
- Lähtötilanteessa joukossa on N alkiota, joista m ovat halutunlaisia ja loput eivät. Kokeessa poimitaan palauttamatta n alkion otos. f(x) kuvaa todennäköisyyttä, jolla otokseen valikoituu x kappaletta halutunlaisia alkioita.
- Esimerkiksi eri väristen pallojen poimiminen laatikosta.
- Jos N \gg n, niin palauttamatta tehty otanta on likimain sama kuin palauttaen tehty otanta.
- \Hyperg(N, m, n) \approx \Bin\left(n, \frac{m}{N}\right), kun n \leq \frac{N}{10}.
Jatkuva tasajakauma, \Tas(a, b)¶
Otosavaruus: \Omega = [a, b]
Tiheysfunktio: f(x)=\frac{1}{b-a}
Odotusarvo: \rE(X) = \dfrac{a + b}{2}
Varianssi: \Var(X) = \dfrac{(b - a)^2}{12}
Momentit generoiva funktio: M(t) = \begin{cases} 1, & \text{kun } t = 0 \\ \dfrac{e^{bt} - e^{at}}{t(b - a)}, & \text{kun } t \not= 0\end{cases}
Matlab, X\sim \Tas(a, b) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
unifpdf(x,a,b) unifcdf(x,a,b) unifinv(x,a,b)
R, X\sim \Tas(a, b) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
dunif(x,a,b) punif(x,a,b) qunif(x,a,b)
Lisätietoja:
- Englanniksi (continuous) uniform distribution, \mathrm{Unif}(a, b).
- Monissa tietokoneohjelmissa satunnaisluvulla (random number) tarkoitetaan satunnaismuuttujan X \sim \Tas(a, b) realisoitunutta arvoa. Muiden jatkuvien satunnaislukugeneraattoreiden toteutukset nojaavat jatkuvaan tasajakaumaan.
Eksponenttijakauma, \Exp(\lambda)¶
Otosavaruus: \Omega = [0, \infty)
Tiheysfunktio: f(x) = \lambda e^{-\lambda x}
Odotusarvo: \rE(X) = \dfrac{1}{\lambda}
Varianssi: \Var(X) = \dfrac{1}{\lambda^2}
Momentit generoiva funktio: M(t) = \dfrac{\lambda}{\lambda - t}, kun 0 \leq t < \lambda
Matlab, X\sim \Exp(lambda) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
Huom. Matlabissa on käytössä toisenlainen tiheysfunktio ja parametrisointi, jolloin \lambda korvataan käänteisluvullaan 1/\lambda.
exppdf(x,1/lambda) expcdf(x,1/lambda) expinv(x,1/lambda)
R, X\sim \Exp(p) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
Huom. R:ssä on käytössä yllä esitelty tiheysfunktio
dexp(x,lambda) pexp(x,lambda) qexp(x,lambda)
Lisätietoja:
Englanniksi exponential distribution.
Geometrisen jakauman jatkuva vastine.
Unohtuvaisuusominaisuus (memorylessness): jos X \sim \Exp(\lambda), niin
P(X > x_1 + x_2 \mid X > x_1) = P(X > x_2).Esimerkiksi elektronisen komponentin ikä.
Normaalijakauma, \rN(\mu, \sigma^2)¶
Otosavaruus: \Omega = \R
Tiheysfunktio: \displaystyle f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left( \frac{x-\mu}{\sigma} \right)^2}
Odotusarvo: \rE(X) = \mu
Varianssi: \Var(X) = \sigma^2
Momentit generoiva funktio: \displaystyle M(t)=e^{\mu t+\frac{1}{2}t^2\sigma^2}
Matlab, \rN(mu, sd^2) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
Huom. Matlabissa toinen parametri on keskihajonta.
normpdf(x,mu,sd) normcdf(x,mu,sd) norminv(x,mu,sd)
R, \rN(mu, sd^2) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
Huom. R:ssä toinen parametri on keskihajonta.
dnorm(x,mu,sd) pnorm(x,mu,sd) qnorm(x,mu,sd)
Lisätietoja:
Englanniksi normal distribution tai Gaussian distribution.
Jos X \sim \rN(\mu, \sigma^2), niin aX + b \sim \rN(a\mu + b, a^2\sigma^2).
Jos X_1 \sim \rN(\mu_1, \sigma_1^2) ja X_2 \sim \rN(\mu_2, \sigma_2^2) ovat riippumattomia, niin
X_1 + X_2 \sim \rN(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2).Keskeisen raja-arvolauseen perusteella usean satunnaismuuttujan summa (ja täten myös otoskeskiarvo) on likimain normaalisti jakautunut riippumatta niiden alkuperäisistä jakaumista.
\rN(np, np(1 - p)) \approx \Bin(n, p), kun np \geq 5 ja n(1 - p) \geq 5.
Jos Z_i \sim \rN(0, 1), i = 1, 2, \ldots, n ovat riippumattomia, niin \sum\limits_{i = 1}^n Z_i^2 \sim \chi^2(n).
\chi^2-jakauma, \chi^2(n)¶
Otosavaruus: \Omega = [0, \infty)
Tiheysfunktio: f(x)=\dfrac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}, missä \Gamma on Eulerin gammafunktio
Odotusarvo: \rE(X) = n
Varianssi: \Var(X) = 2n
Momentit generoiva funktio: M(t) = (1 - 2t)^{-\frac{n}{2}}, kun t < \frac{1}{2}
Matlab, \chi^2(n) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
chi2pdf(x,n) chi2cdf(x,n) chi2inv(x,n)
R, \chi^2(n) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
dchisq(x,n) pchisq(x,n) qchisq(x,n)
Lisätietoja:
Englanniksi chi-squared distribution.
Jos X \sim \chi^2(n), niin satunnaismuuttuja X on \chi^2-jakautunut vapausastein n (degrees of freedom, df).
Jos Z_i \sim \rN(0, 1), i = 1, 2, \ldots, n ovat riippumattomia, niin \sum\limits_{i = 1}^n Z_i^2 \sim \chi^2(n).
Jos X_i \sim \rN(\mu, \sigma^2), i = 1, 2, \ldots, n ovat riippumattomia, niin
\dfrac{(n - 1)S^2}{\sigma^2} \sim \chi^2(n - 1).
Studentin t-jakauma, t(n)¶
Otosavaruus: \Omega = \R
Tiheysfunktio: f(x)=\dfrac{1}{\sqrt{n\pi}}\dfrac{\Gamma\left(\frac{n+1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\left(1+\dfrac{x^2}{n}\right)^{-\frac{n+1}{2}}, missä \Gamma on Eulerin gammafunktio
Odotusarvo: \rE(X) = 0, kun n > 1
Varianssi: \Var(X) = \dfrac{n}{n - 2}, kun n > 2
Matlab, t(n) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
tpdf(x,n) tcdf(x,n) tinv(x,n)
R, t(n) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
dt(x,n) pt(x,n) qt(x,n)
Lisätietoja:
Englanniksi Student’s t-distribution.
Jos X \sim t(n), niin satunnaismuuttuja X on \tdist-jakautunut vapausastein n (degrees of freedom, df).
t-jakauma lähestyy standardinormaalijakaumaa \rN(0, 1), kun n kasvaa rajatta.
Jos X_1, X_2, \ldots, X_n on otos muuttujasta X \sim \rN(\mu, \sigma^2), niin
\frac{\overline{X} - \mu}{s/\sqrt{n}} \sim t(n - 1).
\rF-jakauma, \rF(n_1, n_2)¶
Otosavaruus: \Omega = [0, \infty)
Tiheysfunktio: f(x)=\dfrac{\Gamma\left(\frac{n_1+n_2}{2}\right)}{\Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)}\left(\dfrac{n_1}{n_2}\right)^{\frac{n_1}{2}}x^{\frac{n_1 - 2}{2}}\left(1 + \dfrac{n_1}{n_2}x\right)^{-\frac{n_1+n_2}{2}}, missä \Gamma on Eulerin gammafunktio
Odotusarvo: \rE(X) = \dfrac{n_2}{n_2 - 2}, kun n_2 > 2
Varianssi: \Var(X) = \dfrac{2n_2^2(n_1 + n_2 - 2)}{n_1(n_2 - 2)^2(n_2 - 4)}, kun n_2 > 4
Matlab, \rF(n1, n2) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
fpdf(x,n1,n2) fcdf(x,n1,n2) finv(x,n1,n2)
R, \rF(n1, n2) tiheys-, kertymäfunktio, kertymäfunktion käänteisfunktio
df(x,n1,n2) pf(x,n1,n2) qf(x,n1,n2)
Lisätietoja:
Englanniksi \rF-distribution. Myös Fisherin jakauma tai Snedecorin jakauma.
Jos X \sim \rF(n_1, n_2), niin satunnaismuuttuja X on \rF-jakautunut vapausastein n_1 ja n_2 (degrees of freedom, df).
Jos X_1 \sim \chi^2(n_1) ja X_2 \sim \chi^2(n_2), niin
F = \frac{X_1/n_1}{X_2/n_2} \sim \rF(n_1, n_2)\qquad\text{ja}\qquad \frac{1}{F} \sim \rF(n_2, n_1).