- MATH.APP.210
- 5. Otosjakaumat ja estimointi
- 5.1 Riippumattomien satunnaismuuttujien summa ja keskiarvo
Riippumattomien satunnaismuuttujien summa ja keskiarvo¶
Jatkon kannalta erityisen tärkeä satunnaismuuttujien tyyppi on riippumattomien satunnaismuuttujien X_1,X_2,\ldots,X_n summa Y=X_1+X_2+\ldots+X_n. Ensimmäinen tähän satunnaismuuttujaan liittyvä kiinnostava ongelma on selvittää sen jakauma. Usein voidaan olettaa, että muuttujat X_i, i = 1, 2, \ldots, n noudattavat samaa, tunnettua jakaumaa. Asiaa tutkitaan tyypillisesti seuraavan momentit generoivan funktion ominaisuuden ja induktioperiaatteen avulla.
Lause 5.1.1
Riippumattomien satunnaismuuttujien X_1 ja X_2 summan Y=X_1+X_2 momentit generoiva funktio
kun M_{X_1}(t) ja M_{X_2}(t) ovat muuttujien X_1 ja X_2 momentit generoivat funktiot.
Koska X_1 ja X_2 ovat riippumattomia, niin lauseen 2.6.8 mukaan myös niiden funktiot e^{tX_1} ja e^{tX_2}, missä t \in \R, ovat riippumattomia. Täten riippumattomien satunnaismuuttujien tulon odotusarvona
Esimerkki 5.1.2
Oletetaan, että X\sim\Bin(n,p) ja Y\sim\Bin(m,p), ja että muuttujat X ja Y ovat riippumattomia. Tällöin
eli M_{X+Y}(t) on jakauman \Bin(n+m, p) momenttifunktio. Täten momentit generoivan funktion yksikäsitteisyysominaisuuden nojalla X + Y \sim \Bin(n + m, p).
Tärkeänä tuloksena voidaan todistaa, että riippumattomien normaalijakautuneiden satunnaismuuttujien lineaarikombinaatio on normaalijakautunut.
Lause 5.1.3
Jos satunnaismuuttujat X_i \sim \rN(\mu_i, \sigma_i^2), i = 1, 2, \ldots, n ovat riippumattomia ja kertoimet a_1, a_2, \ldots, a_n \in \R, niin muuttujien lineaarikombinaatio
missä
Käytetään induktiota.
Alkuaskel n = 2. Lauseen 4.4.3 mukaan a_iX_i \sim \rN(a_i\mu_i, a_i^2\sigma_i^2), missä i = 1 tai i = 2. Täten hyödyntämällä normaalijakauman momenttifunktiota ja lausetta 5.1.1 saadaan satunnaismuuttujan Y momentit generoivaksi funktioksi
\begin{split}\begin{aligned} M_Y(t) &= M_{a_1X_1}(t)M_{a_2X_2}(t) = e^{a_1\mu_1t + \frac{1}{2}a_1^2\sigma_1^2t^2}e^{a_2\mu_2t + \frac{1}{2}a_2^2\sigma_2^2t^2} \\ &= e^{(a_1\mu_1 + a_2\mu_2)t + \frac{1}{2}(a_1^2\sigma_1^2 + a_2^2\sigma_2^2)t^2}, \end{aligned}\end{split}joka on myös jakauman \rN(a_1\mu_1 + a_2\mu_2, a_1^2\sigma_1^2 + a_2^2\sigma_2^2) momenttifunktion lauseke. Siis momentit generoivan funktion yksikäsitteisyysominaisuuden nojalla Y noudattaa tätä normaalijakaumaa, kuten väitettiinkin.
Induktioaskel. Oletetaan sitten, että
Y = a_1X_1 + a_2X_2 + \cdots + a_kX_k \sim \rN(\mu_Y, \sigma_Y^2),missä k on luonnollinen luku. Nyt lisäksi X_{k + 1} \sim \rN(\mu_{k + 1}, \sigma_{k + 1}^2), ja koska muuttujat X_1, X_2, \ldots, X_{k + 1} ovat riippumattomia, myös a_1X_1 + a_2X_2 + \cdots + a_kX_k ja a_{k + 1}X_{k + 1} ovat riippumattomia. Voidaan siis todistaa samaan tapaan kuin alkuaskeleessa, että
Y + a_{k + 1}X_{k + 1} \sim \rN(\mu_Y + a_{k + 1}\mu_{k + 1}, \sigma_Y^2 + a_{k + 1}^2\sigma_{k + 1}^2),kuten väitettiinkin.
Induktioperiaatteen nojalla väite on voimassa aina, kun n \in \N.
Tarkastellaan sitten n-toistokoetta, jossa satunnaismuuttujalle X realisoituu jokin arvo, ja merkitään toistossa i realisoituvaa satunnaismuuttujaa X_i. Koetoistojen satunnaismuuttujien X_1,X_2,\ldots,X_n sanotaan olevan otos satunnaismuuttujasta X, jolloin muuttujat X_i ovat riippumattomia ja noudattavat samaa jakaumaa kuin X. Erityisesti \rE(X_i)=\rE(X) ja \Var(X_i)=\Var(X). Satunnaisvektorille (X_1, X_2, \ldots, X_n) realisoituvia arvoja (x_1, x_2, \ldots, x_n) kutsutaan toisinaan myös otokseksi, mutta tässä otoksella tarkoitetaan nimenomaan kokoelmaa satunnaismuuttujia.
Otoksesta X_1,X_2,\ldots,X_n riippuvia otossuureita (statistics) \Theta käytetään usein satunnaismuuttujan X jakauman tuntemattomien parametrien \theta, kuten odotusarvon ja varianssin arviointiin, sekä parametreihin kohdistuvien väitteiden testaamiseen. Otossuureet muodostuvat otosmuuttujien X_i funktioina, ja ovat täten nekin satunnaismuuttujia, joilla on omat jakaumansa. Parametriin \theta liittyvää otossuuretta \Theta kutsutaan myös parametrin estimaattoriksi, ja sille realisoituvaa arvoa estimaatiksi tai piste-estimaatiksi. Satunnaismuuttujan X sijaintia kuvaava tärkein otossuure on otoskeskiarvo.
Määritelmä 5.1.4
Olkoon X_1,X_2,\ldots,X_n otos satunnaismuuttujasta X, sekä luvut x_1, x_2, \ldots, x_n otosmuuttujien realisoituneet arvot. Satunnaismuuttujan X otoskeskiarvo (sample mean) on satunnaismuuttuja
ja sen realisoitunut arvo (reaaliluku)
Satunnaismuuttujan X otoskeskiarvon \overline{X} jakauman odotusarvo ja varianssi voidaan päätellä suoraan muuttujan X vastaavista parametreistä. Odotusarvon lineaarisuuden nojalla
ja jos satunnaismuuttujat X_i ovat riippumattomia (otosmuuttujina ne ovat), niin
lauseen 3.4.8 nojalla. Koska tässä muuttujat X_1,X_2,\ldots,X_n muodostavat otoksen satunnaismuuttujasta X, niin \rE(X_i)=\rE(X) ja \Var(X_i)=\Var(X), i = 1, 2, \ldots, n. Näin otoskeskiarvon odotusarvolle ja varianssille saadaan seuraava tulos.
Lause 5.1.5
Olkoon X_1,X_2,\ldots,X_n otos satunnaismuuttujasta X. Tällöin muuttujan X otoskeskiarvon \overline{X} odotusarvo
ja varianssi
kun \rE(X) = \mu ja \Var(X) = \sigma^2.
Satunnaismuuttujan X otoksesta X_1, X_2, \ldots, X_n lasketun otossuureen \Theta (satunnaismuuttuja) sanotaan olevan tietyn muuttujan X jakauman parametrin \theta harhaton estimaattori (unbiased estimator), jos \rE(\Theta) = \theta. Otossuureelle realisoitunut arvo antaa tälle parametrille harhattoman estimaatin (unbiased estimate). Edellisen lauseen mukaan otoskeskiarvo \overline{X} odotusarvon \rE(X) = \mu harhaton estimaatti.
Otoskeskiarvon keskihajontaa
kutsutaan keskiarvon keskivirheeksi (the standard error of the mean). Otoksesta arvioitu satunnaismuuttujan X odotusarvo ja sen virhearvio voidaan ilmaista muodossa \mu \pm \sigma/\sqrt{n}. Tätä karkeaa arviota luotettavampi tapa on muodostaa odotusarvolle \mu luottamusväli, joka suurella todennäköisyydellä sisältää varsinaisen odotusarvon.
Jos muuttuja X noudattaa normaalijakaumaa, niin lauseen 5.1.3 nojalla myös otoskeskiarvo \overline{X} noudattaa normaalijakaumaa.
Seuraus 5.1.6
Jos X_1,X_2,\ldots,X_n on otos muuttujasta X\sim\rN(\mu,\sigma^2), niin otoskeskiarvo
Aina ei voida olettaa, että satunnaismuuttujan X jakauma olisi normaalinen tai edes tunnettu. Seuraavaksi käsiteltävän keskeisen raja-arvolauseen mukaan suurilla otoksilla otoskeskiarvo noudattaa onneksi likimain normaalijakaumaa riippumatta satunnaismuuttujan X jakaumasta.