\[\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \newcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bff}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\nv}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\rA}{\mathrm{A}} \newcommand{\rB}{\mathrm{B}} \newcommand{\rC}{\mathrm{C}} \newcommand{\rD}{\mathrm{D}} \newcommand{\rE}{\mathrm{E}} \newcommand{\rF}{\mathrm{F}} \newcommand{\rG}{\mathrm{G}} \newcommand{\rH}{\mathrm{H}} \newcommand{\rI}{\mathrm{I}} \newcommand{\rJ}{\mathrm{J}} \newcommand{\rK}{\mathrm{K}} \newcommand{\rL}{\mathrm{L}} \newcommand{\rM}{\mathrm{M}} \newcommand{\rN}{\mathrm{N}} \newcommand{\rO}{\mathrm{O}} \newcommand{\rP}{\mathrm{P}} \newcommand{\rQ}{\mathrm{Q}} \newcommand{\rR}{\mathrm{R}} \newcommand{\rS}{\mathrm{S}} \newcommand{\rT}{\mathrm{T}} \newcommand{\rU}{\mathrm{U}} \newcommand{\rV}{\mathrm{V}} \newcommand{\rW}{\mathrm{W}} \newcommand{\rX}{\mathrm{X}} \newcommand{\rY}{\mathrm{Y}} \newcommand{\rZ}{\mathrm{Z}} \newcommand{\pv}{\overline} \newcommand{\iu}{\mathrm{i}} \newcommand{\ju}{\mathrm{j}} \newcommand{\im}{\mathrm{i}} \newcommand{\e}{\mathrm{e}} \newcommand{\real}{\operatorname{Re}} \newcommand{\imag}{\operatorname{Im}} \newcommand{\Arg}{\operatorname{Arg}} \newcommand{\Ln}{\operatorname{Ln}} \DeclareMathOperator*{\res}{res} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\sgn}{\operatorname{sgn}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \newcommand{\vir}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\norm}[1]{\lVert #1 \rVert} \newcommand{\tp}[1]{#1^{\top}} \renewcommand{\d}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-15mu}#1}^{\,#2}} \newcommand{\abs}[1]{\lvert#1\rvert} \newcommand{\pysty}[1]{\left[\begin{array}{@{}r@{}}#1\end{array}\right]} \newcommand{\piste}{\cdot} \newcommand{\qedhere}{} \newcommand{\taumatrix}[1]{\left[\!\!#1\!\!\right]} \newenvironment{augmatrix}[1]{\left[\begin{array}{#1}}{\end{array}\right]} \newenvironment{vaugmatrix}[1]{\left|\begin{array}{#1}}{\end{array}\right|} \newcommand{\trans}{\mathrm{T}} \newcommand{\EUR}{\text{\unicode{0x20AC}}} \newcommand{\SI}[3][]{#2\,\mathrm{#3}} \newcommand{\si}[2][]{\mathrm{#2}} \newcommand{\num}[2][]{#2} \newcommand{\ang}[2][]{#2^{\circ}} \newcommand{\meter}{m} \newcommand{\metre}{\meter} \newcommand{\kilo}{k} \newcommand{\kilogram}{kg} \newcommand{\gram}{g} \newcommand{\squared}{^2} \newcommand{\cubed}{^3} \newcommand{\minute}{min} \newcommand{\hour}{h} \newcommand{\second}{s} \newcommand{\degreeCelsius}{^{\circ}C} \newcommand{\per}{/} \newcommand{\centi}{c} \newcommand{\milli}{m} \newcommand{\deci}{d} \newcommand{\percent}{\%} \newcommand{\Var}{\operatorname{Var}} \newcommand{\Cov}{\operatorname{Cov}} \newcommand{\Corr}{\operatorname{Corr}} \newcommand{\Tasd}{\operatorname{Tasd}} \newcommand{\Ber}{\operatorname{Ber}} \newcommand{\Bin}{\operatorname{Bin}} \newcommand{\Geom}{\operatorname{Geom}} \newcommand{\Poi}{\operatorname{Poi}} \newcommand{\Hyperg}{\operatorname{Hyperg}} \newcommand{\Tas}{\operatorname{Tas}} \newcommand{\Exp}{\operatorname{Exp}} \newcommand{\tdist}{\operatorname{t}} \newcommand{\rd}{\mathrm{d}}\]

Kovarianssi ja korrelaatio¶

Olkoot \(X\) ja \(Y\) kaksi samaan satunnaiskokeeseen liittyvää satunnaismuuttujaa ja jatketaan niiden riippumattomuuden tutkimista. Jos muuttujat riippuvat toisistaan, niin usein halutaan tietää minkälainen ja kuinka voimakas riippuvuus on kyseessä. Seuraavassa rajoitutaan vain lineaarisen riippuvuuden tarkastelemiseen. Oletetaan, että satunnaismuuttujilla on odotusarvot

\[\rE(X) = \mu_X\qquad\text{ja}\qquad\rE(Y) = \mu_Y.\]

Muuttujien \(X\) ja \(Y\) välistä lineaarista riippuvuutta kuvataan tulon \((X-\mu_X)(Y-\mu_Y)\) odotusarvon avulla.

Määritelmä 3.3.1

Satunnaismuuttujien \(X\) ja \(Y\) kovarianssi (covariance)

\[\Cov(X,Y) = \sigma_{XY} = \rE((X-\mu_X)(Y-\mu_Y)).\]

Määritelmästä nähdään välittömästi, että \(\Cov(X,X)=\rE((X-\mu_X)^2)=\Var(X)\), eli kovarianssi ikään kuin laajentaa varianssin käsitteen kahdelle satunnaismuuttujalle. Kovarianssi voidaan laskea myös seuraavan tuloksen avulla.

Lause 3.3.2

Satunnaismuuttujien \(X\) ja \(Y\) kovarianssi

\[\Cov(X,Y) = \rE(XY)-\rE(X)\rE(Y).\]

Piilota/näytä todistus

Väite seuraa kovarianssin määritelmästä ja odotusarvon lineaarisuudesta:

\[\begin{split}\begin{aligned} \Cov(X,Y) &= \rE((X-\mu_X)(Y-\mu_Y)) = \rE(XY-X\mu_Y-\mu_XY+\mu_X\mu_Y) \\ &= \rE(XY)-\rE(X)\mu_Y-\mu_X\rE(Y)+\mu_X\mu_Y = \rE(XY)-\mu_X\mu_Y, \end{aligned}\end{split}\]

missä \(\mu_X = \rE(X)\) ja \(\mu_Y = \rE(Y)\).

Yleisesti \(\rE(XY)\neq \rE(X)\rE(Y)\). Kuitenkin riippumattomille satunnaismuuttujille yhtäsuuruus pätee ja se antaa tulkinnan myös kovarianssille.

Lause 3.3.3

Jos satunnaismuuttujat \(X\) ja \(Y\) ovat riippumattomia, niin \(\rE(XY) = \rE(X)\rE(Y)\) ja \(\Cov(X,Y)=0\).

Piilota/näytä todistus

Riippumattomien satunnaismuuttujien \(X\) ja \(Y\) yhteisjakauman tiheysfunktio \(f(x, y)\) on niiden omien tiheysfunktioiden \(f_1(x)\) ja \(f_2(y)\) tulo. Rajoitutaan todistamaan tapaus, jossa muuttujien \(X\) ja \(Y\) yhteisjakauma on jatkuva, jolloin

\[\rE(XY) = \int_{-\infty}^\infty\int_{-\infty}^\infty xyf_1(x)f_2(y)\,\rd x\rd y = \left(\int_{-\infty}^\infty xf_1(x)\,\rd x\right)\left(\int_{-\infty}^\infty yf_2(y)\,\rd y\right) = \rE(X)\rE(Y).\]

Tästä seuraa suoraan tulos \(\Cov(X,Y)=0\).

Tätä lausetta ei voi yleisesti kääntää. Ehdon \(\Cov(X,Y)=0\) toteutuminen ei takaa satunnaismuuttujien \(X\) ja \(Y\) riippumattomuutta.

On tärkeää muistaa, että kovarianssin avulla voidaan ilmaista vain lineaarista riippuvuutta. Jos muuttujien \(X\) ja \(Y\) kovarianssi \(\Cov(X,Y)>0\), poikkeamien \((X-\mu_X)\) ja \((Y-\mu_Y)\) voidaan tulkita olevan tyypillisesti samanmerkkisiä. Tällöin siis satunnaismuuttujille \(X\) ja \(Y\) realisoituvat arvot yleisesti ottaen kasvavat tai vähenevät samanaikaisesti. Lisäksi tällöin satunnaisvektorin \((X, Y)\) havaintoarvoja \((x, y)\) esiintyy yleensä eniten \(xy\)-tason siinä osassa, jossa \((X-\mu_X)(Y-\mu_Y)>0\).

Kovarianssin suuruus riippuu myös muuttujien \(X\) ja \(Y\) keskihajonnoista \(\sqrt{\mathrm{Var}(X)}=\sigma_X\) ja \(\sqrt{\mathrm{Var}(Y)}=\sigma_Y\), minkä vuoksi \(\Cov(X,Y)\) ei kelpaa eri muuttujaparien välisten lineaaristen riippuvuuksien voimakkuuden vertailemiseen. Ongelma saadaan korjattua siirtymällä tutkimaan keskihajonnan suhteen normeerattujen satunnaismuuttujien \(\hat{X} = \frac{1}{\sigma_X}X\) ja \(\hat{Y} = \frac{1}{\sigma_Y}Y\) kovarianssia

\[\Cov(\hat{X}, \hat{Y}) = \rE(\hat{X}\hat{Y}) - \rE(\hat{X})\rE(\hat{Y}) = \frac{\rE(XY) - \rE(X)\rE(Y)}{\sigma_X\sigma_Y} = \frac{\Cov(X, Y)}{\sigma_X\sigma_Y}.\]

Määritelmä 3.3.4

Satunnaismuuttujien \(X\) ja \(Y\) välinen (lineaarinen) korrelaatio ((linear) correlation)

\[\Corr(X,Y)=\rho_{XY}=\frac{\Cov(X,Y)}{\sqrt{\Var(X)\Var(Y)}}.\]

Satunnaismuuttujien \(X\) ja \(Y\) välisen korrelaation laskemisessa on monta vaihetta. Esimerkkinä annetaan kuvitellun diskreetin satunnaisvektorin korrelaation laskeminen. Jatkuvan satunnaisvektorin tapauksessa vastaavat arvot tulisi laskea käyttäen integraaleja ja tasointegraaleja yhteis- ja marginaalijakaumilla.

Esimerkki 3.3.5

Diskreetin satunnaisvektorin \((X,Y)\) otosavaruus on

\(\Omega=\{(0,0),(1,1),(2,1),(1,3) \}\) ja tiheysfunktion arvot ovat

\[f(0,0)=\dfrac{2}{8}, \ \ f(1,1)=\dfrac{3}{8},\ \ f(2,1)=\dfrac{2}{8},\ \ f(1,3)=\dfrac{1}{8}\]

Laske \(\mathrm{Cov}(X,Y)\) ja \(\mathrm{Corr}(X,Y)\). Ovatko \(X\) ja \(Y\) riippumattomia?

\(E(X)\) saadaan laskemalla \(x\)-koordinaattien odotusarvo ja \(E(Y)\) laskemalla

\(y\)-koordinaattien odotusarvo käyttäen yhteisjakauman todennäköisyyksiä.

\[\begin{split}\begin{array}{rcl} E(X) & = & \frac{2}{8}\cdot 0 + \frac{3}{8}\cdot 1 +\frac{2}{8}\cdot 2 +\frac{1}{8}\cdot 1 = 1 \\ E(Y) & = & \frac{2}{8}\cdot 0 + \frac{3}{8}\cdot 1 +\frac{2}{8}\cdot 1 +\frac{1}{8}\cdot 3 = 1 \\ \end{array}\end{split}\]

Vastaavasti \(E(XY)\) saadaan laskemalla tulojen \(xy\) odotusarvo

\[E(XY) = \frac{2}{8}\cdot 0\cdot 0 + \frac{3}{8}\cdot 1\cdot 1 +\frac{2}{8}\cdot 2\cdot 1 +\frac{1}{8}\cdot 1\cdot 3 = \dfrac{5}{4}\]

Kovarianssi on siis

\[\mathrm{Cov}(X,Y)=E(XY)-E(X)E(Y)=\frac{5}{4}- 1 \cdot 1 =\frac{1}{4}\]

Korrelaatiokerrointa varten tarvitaan vielä varianssit. Lasketaan ne kaavalla \(\mathrm{Var}(X)=E(X^2)-(E(X))^2\)

\[\begin{split}\begin{array}{rcl} E(X^2) & = & \frac{2}{8}\cdot 0^2 + \frac{3}{8}\cdot 1^2 +\frac{2}{8}\cdot 2^2 +\frac{1}{8}\cdot 1^2 = \frac{3}{2} \\ E(Y^2) & = & \frac{2}{8}\cdot 0^2 + \frac{3}{8}\cdot 1^2 +\frac{2}{8}\cdot 1^2 +\frac{1}{8}\cdot 3^2 = \frac{7}{4} \end{array}\end{split}\]

ja varianssit ovat \(\mathrm{Var}(X)=\dfrac{3}{2}-1^2 = \dfrac{1}{2}\) sekä \(\mathrm{Var}(Y)=\dfrac{7}{4}-1^2 = \dfrac{3}{4}\). Lopulta saadaan

\[\mathrm{Corr}(X,Y)=\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}} = \frac{\frac{1}{4}}{\sqrt{\frac{1}{2}\cdot \frac{3}{4}}}=\frac{1}{\sqrt{6}}=0.408\]

Koska \(\mathrm{Cov}(X,Y)\neq 0\), \(X\) ja \(Y\) eivät ole riippumattomia.

Lause 3.3.6

Satunnaismuuttujien \(X\) ja \(Y\) korrelaatio toteuttaa seuraavat väitteet.

\(-1 \leq \Corr(X,Y) \leq 1\).
\(\left|\Corr(X, Y)\right| = 1\) jos ja vain jos \(P(Y = aX + b) = 1\) joillakin vakioilla \(a \not= 0\) ja \(b\). Tässä \(a > 0\) jos \(\Corr(X, Y) = 1\), ja \(a < 0\) jos \(\Corr(X, Y) = -1\).

Mitä suurempi \(\left|\Corr(X,Y)\right|\) on, sen voimakkaammasta lineaarisesta riippuvuudesta on kyse, eli sitä tiiviimmin satunnaisvektorin \((X, Y)\) havaintoarvot \((x, y)\) osuvat suoran kuvaajalle. Korrelaation arvot \(\Corr(X,Y)=\pm1\) kuvaavat täydellistä lineaarista riippuvuutta. Arvosta \(\Corr(X,Y)=0\) voidaan päätellä vain, että muuttujien \(X\) ja \(Y\) välillä ei ole lineaarista riippuvuutta. Sen sijaan muun luonteista riippuvuutta voi olla.

Korrelaatiokertoimen arvosta voidaan tehdä esimerkiksi seuraavanlaisia sanallisia tulkintoja. Muuttujien \(X\) ja \(Y\) välinen lineaarinen riippuvuus on

voimakas, jos \(|\rho_{XY}| \geq 0.8\),
huomattava, jos \(0.6\leq |\rho_{XY}| < 0.8\),
kohtalainen, jos \(0.3\leq |\rho_{XY}| < 0.6\),
merkityksetön, jos \(|\rho_{XY}| < 0.3\).

Kun korrelaatiota mitataan satunnaismuuttujiin \(X\) ja \(Y\) liittyvästä empiirisestä aineistosta, on aina suotavaa muodostaa ensin havaintoaineiston pisteparvi, eli sirontakuvio (scatter plot), jossa havaintoarvoparit \((x,y)\) piirretään \(xy\)-koordinaatistoon. Sirontakuvion avulla voidaan arvioida, onko lineaarisen riippuvuuden mittaaminen edes järkevää, sekä havaita mahdolliset poikkeavat tulokset, joille korrelaatio on herkkä. Alla on kuvattu joitakin sirontakuvioita ja korrelaatiokertoimia.

Aikaisemmin annettiin tulos riippumattomien satunnaismuuttujien lineaarisen muunnoksen varianssille. Nyt kovarianssin avulla voidaan esittää vastaava tulos myös riippuville muuttujille.

Lause 3.3.7

Satunnaismuuttujien \(X\) ja \(Y\) lineaarisen lausekkeen varianssi

\[\Var(aX+bY)=a^2\Var(X)+b^2\Var(Y)+2ab\Cov(X,Y).\]

Erityisesti, jos \(X\) ja \(Y\) ovat riippumattomia, niin

\[\Var(aX+bY)=a^2\Var(X)+b^2\Var(Y).\]

Piilota/näytä todistus

Tuloksen \(\Var(X)=\rE(X^2)-(\rE(X))^2\) ja odotusarvon lineaarisuuden nojalla

\[\begin{split}\begin{array}{rcl} \Var(aX + bY) &=& \rE((aX + bY)^2) - \rE(aX + bY)^2 \\ &=& \rE(a^2X^2 + 2abXY + b^2\rE(Y^2)) - (a\rE(X) + b\rE(Y))^2 \\ &=& a^2(\rE(X^2) - \rE(X)^2) + b^2(\rE(Y^2) - \rE(Y)^2) + 2ab(\rE(XY) - \rE(X)\rE(Y)) \\ &=& a^2\Var(X) + b^2\Var(Y) + 2ab\Cov(X, Y), \end{array}\end{split}\]

Jos muuttujat \(X\) ja \(Y\) ovat riippumattomia, niin \(\Cov(X, Y) = 0\), ja varianssi sievenee toisen väitteen muotoon.