$\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \newcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bff}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\nv}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\pv}{\overline} \newcommand{\iu}{\mathrm{i}} \newcommand{\ju}{\mathrm{j}} \newcommand{\im}{\mathrm{i}} \newcommand{\e}{\mathrm{e}} \newcommand{\real}{\operatorname{Re}} \newcommand{\imag}{\operatorname{Im}} \newcommand{\Arg}{\operatorname{Arg}} \newcommand{\Ln}{\operatorname{Ln}} \DeclareMathOperator*{\res}{res} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\sgn}{\operatorname{sgn}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \newcommand{\vir}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\norm}[1]{\lVert #1 \rVert} \newcommand{\tp}[1]{#1^{\top}} \renewcommand{\d}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-15mu}#1}^{\,#2}} \newcommand{\abs}[1]{\lvert#1\rvert} \newcommand{\pysty}[1]{\left[\begin{array}{@{}r@{}}#1\end{array}\right]} \newcommand{\piste}{\cdot} \newcommand{\qedhere}{} \newcommand{\taumatrix}[1]{\left[\!\!#1\!\!\right]} \newenvironment{augmatrix}[1]{\left[\begin{array}{#1}}{\end{array}\right]} \newenvironment{vaugmatrix}[1]{\left|\begin{array}{#1}}{\end{array}\right|} \newcommand{\trans}{\mathrm{T}} \newcommand{\EUR}{\text{\unicode{0x20AC}}} \newcommand{\SI}[3][]{#2\,\mathrm{#3}} \newcommand{\si}[2][]{\mathrm{#2}} \newcommand{\num}[2][]{#2} \newcommand{\ang}[2][]{#2^{\circ}} \newcommand{\meter}{m} \newcommand{\metre}{\meter} \newcommand{\kilo}{k} \newcommand{\kilogram}{kg} \newcommand{\gram}{g} \newcommand{\squared}{^2} \newcommand{\cubed}{^3} \newcommand{\minute}{min} \newcommand{\hour}{h} \newcommand{\second}{s} \newcommand{\degreeCelsius}{^{\circ}C} \newcommand{\per}{/} \newcommand{\centi}{c} \newcommand{\milli}{m} \newcommand{\deci}{d} \newcommand{\percent}{\%} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}}$

# Binomijakauma¶

Palataan sitten tutkimaan tärkeimpiä diskreettejä ja jatkuvia todennäköisyysjakaumia. Niistä ensimmäinen muodostuu seuraavan Bernoullin kokeen toistona. Oletetaan, että satunnaiskokeen tulosvaihtoehdot (koodattuna) ovat $$0$$ ja $$1$$, eli tarkastelun kohteena oleva tapahtuma joko ei realisoidu tai realisoituu. Ensimmäistä vaihtoehtoa kutsutaan myös epäonnistumiseksi ja jälkimmäistä onnistumiseksi. Kiinnitetään onnistumisen todennäköisyydeksi $$p$$, jolloin epäonnistumisen todennäköisyys on $$1 - p$$.

Määritelmä 4.2.1

Diskreetti satunnaismuuttuja $$X$$ noudattaa Bernoullin jakaumaa (Bernoulli distribution) parametrilla $$p$$, $$X \sim \Ber(p)$$, jos sen otosavaruus $$\Omega = \{0, 1\}$$ ja tiheysfunktio

$\begin{split}f(x) = \begin{cases} p, & \text{kun } x = 1 \\ 1 - p, & \text{kun } x = 0. \end{cases}\end{split}$

Bernoullin jakauman kuvaama satunnaiskoe voidaan yleistää toistamalla sitä $$n$$ kertaa siten, että jokainen toisto on toisista riippumaton. Onnistumisien lukumäärä tässä $$n$$-toistokokeessa on uusi diskreetti satunnaismuuttuja $$X$$, jonka mahdolliset arvot ovat kokonaislukuja $$0,1,\ldots,n$$. Siihen liittyvät alkeistapaukset ovat nollista ja ykkösistä koostuvia jonoja, joissa on $$x$$ kappaletta onnistumisia ja $$n - x$$ kappaletta epäonnistumisia jossakin järjestyksessä. Koska onnistumisen todennäköisyys on $$p$$ ja toistot ovat riippumattomia toisistaan, yksittäinen alkeistapaus realisoituu todennäköisyydellä $$p^{x}(1 - p)^{n - x}$$. Vaihtoehtoja alkeistapahtumiksi, joihin liittyy $$x$$ onnistumista, on $$\binom{n}{x}$$ erilaista, joten

$P(X=x)=\binom{n}{x}p^x(1-p)^{n-x}.$

Määritelmä 4.2.2

Diskreetti satunnaismuuttuja $$X$$ noudattaa binomijakaumaa (binomial distribution) parametrein $$n$$ ja $$p$$, $$X\sim\Bin(n,p)$$, jos sen otosavaruus

$\Omega=\{0,1,\ldots,n\}$

ja tiheysfunktio

$f(x)=b(x; n, p)=\binom{n}{x}p^x(1-p)^{n-x},\qquad\text{kun }x \in \Omega.$
Mitä seuraavista satunnaismuuttujista voitaisiin kuvata luotettavimmin binomijakaumalla?

Binomijakauman tiheysfunktion $$f$$ arvoja $$f(x) = b(x; n, p)$$ otosavaruuden pisteissä sanotaan binomitodennäköisyyksiksi. Käyttämällä binomikaavaa

$\sum_{x=0}^{n}\binom{n}{x}a^xb^{n-x}=(a+b)^n$

$\sum_{x=0}^{n}b(x; n, p) = \sum_{x=0}^{n}\binom{n}{x}p^x(1-p)^{n-x}=(p+1-p)^n = 1.$

Satunnaismuuttujan $$X\sim\Bin(n,p)$$ kertymäfunktio on

$F(x)=P(X\leq x)=\sum_{t=0}^{\lfloor x\rfloor}b(t; n, p),$

missä $$\lfloor x\rfloor = \max\{n \in \Z : n \leq x\}$$ on suurin kokonaisluku $$n$$, jolle $$n \leq x$$. Taulukoista löytyy ja valmisohjelmilla (Matlab, R) voi laskea binomijakautuneen muuttujan kertymäfunktion ja sen käänteisfunktion arvoja.

Lause 4.2.3

Jos satunnaismuuttuja $$X\sim\Bin(n,p)$$, niin sen momentit generoiva funktio

$M(t)=(pe^t+1-p)^n,$

sekä odotusarvo ja varianssi

$\rE(X)=np \qquad\text{ja}\qquad \Var(X)=np(1-p).$
Piilota/näytä todistus

Satunnaismuuttujan $$X$$ momentit generoivaksi funktioksi saadaan binomikaavan avulla

$M(t) = \rE(e^{tX}) = \sum_{x=0}^{n}e^{tx}\binom{n}{x}p^x(1 - p)^{n-x} = \sum_{x=0}^{n}\binom{n}{x}(pe^t)^x(1 - p)^{n-x} = (pe^t + 1 - p)^n,$

kuten väitettiin. Nyt

$M'(t) = np(pe^t + 1 - p)^{n - 1}e^t \qquad\text{ja}\qquad M''(t) = np(pe^t + 1 - p)^{n - 2}e^t(npe^t + 1 - p),$

jolloin

$\rE(X) = M'(0) = np(p + 1 - p)^{n - 1} = np$

ja

\begin{split}\begin{aligned} \Var(X) &= M''(0) - M'(0)^2 = np(p + 1 - p)^{n - 2}(np + 1 - p) - n^2p^2 \\ &= np(np + 1 - p - np) = np(1 - p). \end{aligned}\end{split}

Esimerkki 4.2.4

Tavallista kolikkoa heitetään $$5$$ kertaa. Tuloksena saatujen kruunujen lukumäärää kuvaava satunnaismuuttuja $$X$$ noudattaa binomijakaumaa parametrein $$n=5$$ ja $$p=0{,}5$$, eli $$X \sim \Bin(5, 0{,}5)$$ tiheysfunktionaan

$f(x)=\binom{5}{x}0{,}5^x(1-0{,}5)^{5-x}=\binom{5}{x}0{,}5^5,\qquad\text{kun } x\in\{0,1,\ldots,5\}$

Esimerkki 4.2.5

Erään tuottajan transistoreista $$5~\%$$ on viallisia. Asiakas ostaa $$6$$ transistoria ja kuvaa viallisten laitteiden lukumäärää otoksessaan satunnaismuuttujalla $$X$$. Laske todennäköisyys sille, että asiakas saa

1. yksi tai kaksi viallista transistoria,
2. vähintään yhden viallisen transistorin.
Piilota/näytä ratkaisu

Kyseessä on $$6$$-toistokoe, jossa onnistumisen, eli viallisen transistorin saamisen todennäköisyys yksittäisellä toistolla on $$0{,}05$$. Täten satunnaismuuttuja $$X\sim\Bin(6, 0{,}05)$$ tiheysfunktionaan

$f(x)=\binom{6}{x}0{,}05^x\cdot 0{,}95^{6-x},\qquad\text{kun }x\in\{0,1,\ldots,6\}.$
1. Todennäköisyys sille, että asiakas saa yhden tai kaksi viallista transistoria on

$P(1 \leq X \leq 2) = \binom{6}{1}\cdot0{,}05\cdot0{,}95^5+\binom{6}{2}\cdot0{,}05^2\cdot0{,}95^4\approx0{,}2627.$

Matlabin komennot binopdf ja binocdf laskevat binomijakauman tiheys- ja kertymäfunktioiden arvoja, jolloin edelliset voitaisiin laskea myös komennoilla

sum(binopdf([1 2], 6, 0.05))


tai

binocdf(2, 6, 0.05) - binocdf(0, 6, 0.05)


R-ohjelman vastaavat komennot tiheys- ja kertymäfunktioille ovat dbinom ja pbinom, ja ratkaisu saataisiin laskulla

dbinom(1, 6, 0.05) + dbinom(2, 6, 0.05)


tai

pbinom(2, 6, 0.05) - pbinom(0, 6, 0.05)

2. Todennäköisyys sille, että asiakas saa vähintään yhden viallisen transistorin on

$P(X\geq1)=1-P(X<1)=1-P(X=0)=1-0{,}95^6\approx0{,}2649.$

Matlab- ja R-komennot

1 - binopdf(0, 6, 0.05)


ja

1 - dbinom(0, 6, 0.05)


antavat saman tuloksen.

Tarkastellaan seuraavassa binomijakaumaa $$\Bin(n, p)$$.

Mitkä seuraavista väitteistä ovat oikein?

1. Kun $$p = 0{,}5$$, jakauma on symmetrinen luvun $$np$$ ympärillä.
2. Kun $$p < 0{,}5$$, suurin osa todennäköisyydestä keskittyy keskikohdan $$n/2$$ oikealle puolelle.
3. Kun $$p < 0{,}5$$, suurin osa todennäköisyydestä keskittyy keskikohdan $$n/2$$ vasemmalle puolelle.
Palautusta lähetetään...