\[\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \renewcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bbf}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-10mu}\,#1}^{\,#2}} \newcommand{\qedhere}{}\]

Empiirisen otoksen kuvailua

Tavallisesti satunnaiskokeeseen liittyvän satunnaismuuttujan \(X\) todennäköisyysjakauman mallintaminen aloitetaan toistamalla koe useita kertoja, tai havainnoimalla satunnaismuuttujan saamia arvoja muulla tavoin. Näin saadut satunnaismuuttujan havaintoarvot muodostavat empiirisen otoksen (sample), jonka perusteella tehdään johtopäätöksiä kyseisestä satunnaismuuttujasta. Seuraavassa kuvataan lyhyesti otosta havainnollistavia tunnuslukuja ja graafisia kuvioita.

Käsitellään otosta, jossa on \(n\) alkiota ja jonka oletetaan olevan peräisin satunnaismuuttujasta \(X\). Empiiriseen otokseen liittyvässä frekvenssijakaumassa (frequency distribution) otos järjestetään taulukkomuotoon, jossa järjestetään erilliset realisoituneet arvot tai arvoluokat \(x_1, x_2, \ldots, x_k\) ja niiden esiintymislukumäärät eli frekvenssit (frequency) \(f_1, f_2, \ldots, f_k\). Eri havaintoarvoja tai arvoluokkia vastaavien frekvenssien summa on havaintoarvojen kokonaislukumäärä otoksessa. Usein on tarkoituksenmukaista käyttää frekvenssien sijasta suhteellisia frekvenssejä (relative frequency) \(p_i = \frac{f_i}{n}\), \(i = 1, 2, \ldots, k\). Frekvenssijakaumaa voidaan havainnollistaa graafisesti esimerkiksi histogrammilla (histogram), joka voi toimia myös arviona varsinaisen todennäköisyysjakauman muodosta.

Kun lasketaan frekvenssien tai suhteellisten frekvenssien kumulatiivisia summia (cumulative sum) realisoituneiden arvojen kasvavassa järjestyksessä, saadaan summafrekvenssit \(F_1, F_2, \ldots, F_k\) ja suhteelliset summafrekvenssit \(\frac{F_i}{n}\), \(i = 1, 2, \ldots, k\). Nämä kaavoilla

\[F_i=\sum_{j=1}^{i}f_j\qquad\text{ja}\qquad \frac{F_i}{n}=\sum_{j=1}^{i}\frac{f_j}{n}=\sum_{j=1}^{i}p_j\]

laskettavat arvot ilmaisevat kuinka moni tai kuinka suuri osa koetuloksista on korkeintaan havaintoarvon \(x_i\) suuruisia.

Otoksen keskikohtaa tai siinä esiintyvien havaintoarvojen vaihtelua voidaan kuvailla esimerkiksi seuraavilla tärkeillä tunnusluvuilla.

Määritelmä 4.1.1

Satunnaismuuttujan \(X\) otoksen \(x_1, x_2, \ldots, x_n\) otoskeskiarvo (sample mean) \(\overline{x}\), otosvarianssi (sample variance) \(s^2\) ja otoskeskihajonta (sample standard deviation) \(s\) ovat

\[\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_i,\qquad s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2\qquad\text{ja}\qquad s=\sqrt{s^2}.\]

Otoskeskiarvo kuvaa otoksen keskikohdan sijaintia ja otoskeskihajonta mittaa havaintoarvojen tyypillistä etäisyyttä otoskeskiarvosta sen molemmin puolin. Mitä suurempi keskihajonta \(s\) on, sitä enemmän havaintoarvot keskimäärin poikkeavat otoskeskiarvosta \(\overline{x}\). Nämä luvut eivät vielä kerro paljonkaan otoksen vinoudesta, eli siitä miten tasaisesti havaintoarvot jakautuvat otoskeskiarvon eri puolille.

Mitkä seuraavista väitteistä ovat oikein, kun \(x_1, x_2, \ldots, x_n\) on diskreettiin satunnaismuuttujaan \(X\) liittyvä empiirinen aineisto, \(\mu = \rE(X)\) ja \(\sigma^2 = \Var(X)\)?

  1. Otoskeskiarvo \(\overline{x} = \frac{1}{n}\sum_{i = 1}^{n}x_i = \mu\).
  2. Kun otoskoko \(n\) kasvaa, otosvarianssi \(s^2 = \frac{1}{n - 1}\sum_{i = 1}^{n}(x_i - \mu)^2\) lähestyy lukua \(\sigma^2\).
  3. Kun otoskoko \(n\) kasvaa, otoskeskihajonta \(s = \sqrt{s^2}\) lähestyy nollaa.

Nämä tunnusluvut voidaan laskea myös otoksen frekvenssijakauman avulla. Jos erilliset havaintoarvot ovat \(x_1, x_2, \ldots, x_k\) ja niiden frekvenssit \(f_1, f_2, \ldots, f_k\), niin

\[\overline{x} = \frac{1}{n}\sum_{i = 1}^{k}f_ix_i = \sum_{i = 1}^{k}p_ix_i\qquad\text{ja}\qquad s^2=\frac{1}{n-1}\sum_{i=1}^{k}f_i(x_i-\overline{x})^2\]

Mikäli havaintoarvot on luokiteltu reaalilukuväleille frekvenssien laskemista varten, niin luokkaa edustavana havaintoarvona käytetään sen keskipistettä, eli luokkakeskusta.

Esimerkki 4.1.2

Oletetaan, että elektronisen komponentin käyttöaika (vuosia) on satunnaismuuttuja. On tutkittu \(100\) komponentin käyttöaikaa ja saatu seuraavat mittaustulokset.

0.24, 0.62, 0.66, 4.2, 0.54, 6.4, 5.4, 1.6, 2.2, 1.6, 0.30, 1.2, 0.80, 1.9, 0.60, 2.4, 5.4, 0.02, 0.96, 6.4, 1.5, 0.80, 0.02, 0.96, 3.6, 2.4, 0.50, 1.6, 2.8, 2.2, 2.2, 1.8, 2.6, 0.17, 0.54, 0.30, 0.52, 6.4, 3.2, 2.6, 0.98, 1.2, 0.02, 0.92, 1.4, 0.44, 0.80, 2.6, 1.2, 6.0, 0.66, 0.26, 7.8, 1.3, 3.8, 6.0, 1.8, 1.1, 0.19, 1.6, 2.6, 4.8, 2.8, 1.4, 0.34, 1.8, 4.2, 1.2, 3.6, 0.34, 1.1, 4.4, 0.24, 0.74, 2.6, 0.34, 2.8, 3.0, 0.28, 1.2, 0.12, 4.0, 2.4, 2.6, 2.6, 1.3, 1.1, 4.0, 4.4, 2.0, 0.66, 0.12, 0.44, 0.62, 0.66, 3.6, 0.80, 2.8, 0.08, 5.4

Kun data luokitellaan reaalilukuväleille \([0, 1), [1, 2), \ldots, [6, 7), [7, 8]\), saadaan seuraava frekvenssitaulukko.

\[\begin{split}\begin{array}{ccccc}\hline \text{luokka} & \text{frekvenssi} & \text{suhteellinen} & \text{summa-} & \text{suhteellinen} \\[-1ex] & f_i & \text{frekvenssi} & \text{frekvenssi} & \text{summafrekvenssi} \\[-1ex] & & f_i/n & F_i & F_i/n \\\hline {[0, 1)} & 39 & 0{,}39 & 39 & 0{,}39 \\[-1ex] {[1, 2)} & 21 & 0{,}21 & 60 & 0{,}60 \\[-1ex] {[2, 3)} & 18 & 0{,}18 & 78 & 0{,}78 \\[-1ex] {[3, 4)} & 6 & 0{,}06 & 84 & 0{,}84 \\[-1ex] {[4, 5)} & 7 & 0{,}07 & 91 & 0{,}91 \\[-1ex] {[5, 6)} & 3 & 0{,}03 & 94 & 0{,}94 \\[-1ex] {[6, 7)} & 5 & 0{,}05 & 99 & 0{,}99 \\[-1ex] {[7, 8]} & 1 & 0{,}01 & 100 & 1{,}00 \\\hline \end{array}\end{split}\]

Matlab-komennot, joilla taulukon arvot voidaan selvittää, ovat seuraavanlaisia.

x = [ ... ]; % kopioi data tähän

rajat = 0:8;

frekv = histcounts(x, 'BinEdges', rajat);

suhtfrekv = frekv / length(x);

summafrekv = cumsum(frekv);

suhtsummafrekv = summafrekv / length(x);

Otoskeskiarvo \(\overline{x} = 1{,}99\), otosvarianssi \(s^2 = 3{,}18\) ja otoskeskihajonta \(s=1{,}78\). Otoskeskiarvon ja -varianssin laskemiseen voidaan käyttää esimerkiksi Matlab- ja R-ohjelmien komentoja mean(x) ja var(x), sekä otoshajonnan laskemiseen komentoja std(x) (Matlab) tai sd(x) (R), kun x on havaintoarvoista koostuva vektori. Alla oleva frekvenssihistogrammi muistuttaa muodoltaan satunnaismuuttujan \(X\) todennäköisyysjakaumaa.

../_images/kuva21histog.svg
Jatkuvan satunnaismuuttujan \(X\) empiirisen aineiston perusteella piirrettävässä histogrammissa pylvään pinta-ala kuvaa sen kattamalle välille osuvien havaintoarvojen lukumäärää. Mitä seuraavista pylvään korkeus tällöin kuvaa parhaiten?
Palautusta lähetetään...