\[\newcommand{\N}{\mathbb N} \newcommand{\Z}{\mathbb Z} \newcommand{\Q}{\mathbb Q} \newcommand{\R}{\mathbb R} \newcommand{\C}{\mathbb C} \newcommand{\ba}{\mathbf{a}} \newcommand{\bb}{\mathbf{b}} \newcommand{\bc}{\mathbf{c}} \newcommand{\bd}{\mathbf{d}} \newcommand{\be}{\mathbf{e}} \newcommand{\bff}{\mathbf{f}} \newcommand{\bh}{\mathbf{h}} \newcommand{\bi}{\mathbf{i}} \newcommand{\bj}{\mathbf{j}} \newcommand{\bk}{\mathbf{k}} \newcommand{\bN}{\mathbf{N}} \newcommand{\bn}{\mathbf{n}} \newcommand{\bo}{\mathbf{0}} \newcommand{\bp}{\mathbf{p}} \newcommand{\bq}{\mathbf{q}} \newcommand{\br}{\mathbf{r}} \newcommand{\bs}{\mathbf{s}} \newcommand{\bT}{\mathbf{T}} \newcommand{\bu}{\mathbf{u}} \newcommand{\bv}{\mathbf{v}} \newcommand{\bw}{\mathbf{w}} \newcommand{\bx}{\mathbf{x}} \newcommand{\by}{\mathbf{y}} \newcommand{\bz}{\mathbf{z}} \newcommand{\bzero}{\mathbf{0}} \newcommand{\nv}{\mathbf{0}} \newcommand{\cA}{\mathcal{A}} \newcommand{\cB}{\mathcal{B}} \newcommand{\cC}{\mathcal{C}} \newcommand{\cD}{\mathcal{D}} \newcommand{\cE}{\mathcal{E}} \newcommand{\cF}{\mathcal{F}} \newcommand{\cG}{\mathcal{G}} \newcommand{\cH}{\mathcal{H}} \newcommand{\cI}{\mathcal{I}} \newcommand{\cJ}{\mathcal{J}} \newcommand{\cK}{\mathcal{K}} \newcommand{\cL}{\mathcal{L}} \newcommand{\cM}{\mathcal{M}} \newcommand{\cN}{\mathcal{N}} \newcommand{\cO}{\mathcal{O}} \newcommand{\cP}{\mathcal{P}} \newcommand{\cQ}{\mathcal{Q}} \newcommand{\cR}{\mathcal{R}} \newcommand{\cS}{\mathcal{S}} \newcommand{\cT}{\mathcal{T}} \newcommand{\cU}{\mathcal{U}} \newcommand{\cV}{\mathcal{V}} \newcommand{\cW}{\mathcal{W}} \newcommand{\cX}{\mathcal{X}} \newcommand{\cY}{\mathcal{Y}} \newcommand{\cZ}{\mathcal{Z}} \newcommand{\pv}{\overline} \newcommand{\re}{\operatorname{Re}} \newcommand{\im}{\operatorname{Im}} \newcommand{\arsinh}{\operatorname{ar\,sinh}} \newcommand{\arcosh}{\operatorname{ar\,cosh}} \newcommand{\artanh}{\operatorname{ar\,tanh}} \newcommand{\diag}{\operatorname{diag}} \newcommand{\proj}{\operatorname{proj}} \newcommand{\rref}{\operatorname{rref}} \newcommand{\rank}{\operatorname{rank}} \newcommand{\Span}{\operatorname{span}} \newcommand{\vir}{\operatorname{span}} \renewcommand{\dim}{\operatorname{dim}} \newcommand{\alg}{\operatorname{alg}} \newcommand{\geom}{\operatorname{geom}} \newcommand{\id}{\operatorname{id}} \newcommand{\norm}[1]{\lVert #1 \rVert} \newcommand{\tp}[1]{#1^{\top}} \renewcommand{\d}{\mathrm{d}} \newcommand{\sij}[2]{\bigg/_{\mspace{-15mu}#1}^{\,#2}} \newcommand{\qedhere}{} \newcommand{\taumatrix}[1]{\left[\!\!#1\!\!\right]} \newenvironment{augmatrix}[1]{\left[\begin{array}{#1}}{\end{array}\right]} \newenvironment{vaugmatrix}[1]{\left|\begin{array}{#1}}{\end{array}\right|} \newcommand{\iu}{\mathrm{i}} \newcommand{\ju}{\mathrm{j}}\]

Pienimmän neliösumman menetelmä

Taulukkolaskentaohjelmat tarjoavat usein mahdollisuuden sovittaa suora tai korkeampiasteinen polynomi annettuun mittauspisteistöön. Sen tarkoituksena on antaa yksinkertainen, ikään kuin paras mahdollinen kuva pisteiden sijoittumisesta. Ajatellaan, että mittaustuloksina saatiin vaikkapa pisteet \((-1,2)\), \((1,2)\), \((3,4)\) ja \((5,6)\). Kuvassa 1 on sovitettu näihin mittaustuloksiin ensimmäisen ja toisen asteen polynomit.

../_images/derivaattapolynomisovitteet.svg

Kuva 1. Ensimmäisen ja toisen asteen polynomisovitteet pisteistöön.

Kun suoraa yrittää sijoittaa kulkemaan pisteiden kautta, saa ratkaistavakseen yhtälöryhmän. Tällä yhtälöryhmällä ei ole ratkaisua, sillä ei ole olemassa suoraa, joka kulkisi kaikkien neljän mittauspisteen kautta. Kuvan suora on kuitenkin sellainen, joka kulkee mahdollisimman lähellä mittauspisteitä. Sama pätee kuvassa olevaan toisen asteen polynomiin.

Esimerkki on osoitus siitä, että, sovelluksissa voi tulla vastaan ongelma, joissa tutkittavalla yhtälöryhmällä ei yksinkertaisesti ole ratkaisua. Tällöin yhtälöryhmälle \(A\bx=\bb\) voidaan tarkan ratkaisun sijaan etsiä paras mahdollinen ratkaisu, jota kutsutaan pienimmän neliösumman ratkaisuksi. Tässä osiossa johdetaan keino määrittää pienimmän neliösumman ratkaisu annetulle matriisiyhtälölle. Kaikkien väitteiden todistuksia ei esitetä.

Aloitetaan tutkimalla, mitä tarkoitetaan yhtälön ratkaisulla. Jos \(\hat{\bx}\) on yhtälön \(A\bx=\bb\) ratkaisu, pätee \(A\hat{\bx}=\bb\) eli \(A\hat{\bx}-\bb=\nv\). Jos \(\hat{\bx}\) ei ole ratkaisu, mutta hyvin lähellä ratkaisua, on vektori \(A\hat{\bx}-\bb\) hyvin lähellä nollavektoria. Tällöin normi \(\|A\hat{\bx}-\bb\|\) on pieni. Pienimmän neliösumman ratkaisu on sellainen vektori \(\hat{\bx}\), jolla \(\|A\hat{\bx}-\bb\|\) on mahdollisimman pieni, pienempi kuin kaikilla muilla vektoreilla.

Määritelmä 7.1.1

Olkoon \(A\) jokin \(m\times n\)-matriisi ja \(\bb\) avaruuden \(\R^m\) vektori. Tällöin yhtälöryhmän \(A\bx=\bb\) pienimmän neliösumman ratkaisu on avaruuden \(\R^n\) vektori \(\hat{\bx}\), joka toteuttaa epäyhtälön

\[\|\bb-A\hat{\bx}\|\le \|\bb-A\bx\|\]

kaikilla \(\bx\in\R^n\).

Englanniksi pienimmän neliösumman ratkaisu on nimeltään least squares solution.

Ryhdytään sitten tutkimaan, miten pienimmän neliösumman ratkaisu löytyy. Oletetaan, että \(A \in \R^{n \times n}\) ja \(\bb \in \R^n\). Sarakeavaruus \(\cR(A)\) koostuu niistä vektoreista \(\bb\), joita kohden yhtälöllä \(A\bx = \bb\) on ratkaisuja. Jos yhtälöryhmälle \(A\bx = \bb\) ei löydy ratkaisua, ei \(\bb\) ole sarakeavaruuden \(\cR(A)\) alkio. Pienimmän neliösumman ratkaisu \(\hat{\bx}\) on sellainen, että \(A\hat{\bx}\) on mahdollisimman lähellä vektoria \(\bb\). Tätä on havainnollistettu kuvassa 2.

../_images/pns1.svg

Kuva 2. Kuvassa matriisin \(A\) sarakeavaruutta \(\cR(A)\) on havainnollistettu tasona. Vektori \(\bb\) ei ole sarakeavaruudessa. Vektori \(A\hat{\bx}\) on sarakeavaruuden vektori, joka on mahdollisimman lähellä vektoria \(\bb\).

Pienimmän neliösumman ratkaisussa etsitään sarakeavaruuden vektori \(A\hat{\bx}\), joka on mahdollisimman lähellä vektoria \(\bb\). Tällainen sarakeavaruudenvektori on kohtisuora projektio \(\proj_{\cR(A)}(\bb)\). Täytyy siis päteä \(A\hat{\bx}=\proj_{\cR(A)}(\bb)\). (Ks. kuva 3.) Tällöin erotusvektori \(\bb-A\hat{\bx}\) on mahdollisimman lyhyt.

../_images/pns2.svg

Kuva 3. Sarakeavaruuden alkio \(A\hat{\bx}\) on projektio \(\proj_{\cR(A)}(\bb)\). Tällöin \(\bb-A\hat{\bx}\) on kohtisuorassa aliavaruutta \(\cR(A)\) vastaan.

Tähän menessä vektoreita on projisoitu vain suorille. Samalla periaatteella on kuitenkin mahdollista projisoida vektori mille tahansa aliavaruudelle. Projektiovektorille pätee, että erotus \(\bb-\proj_{\cR(A)}(\bb)\) on kohtisuorassa aliavaruutta \(\cR(A)\) vastaan. Erotuksen täytyy siis olla kohtisuorassa jokaista aliavaruuden virittäjävektoria vastaan eli matriisin \(A\) saraketta vastaan. Toisin sanoen

\[\ba_j \cdot (\bb - A\hat{\bx}) = 0\]

kaikilla matriisin \(A\) sarakkeilla \(\ba_j\). Koska pistetulon voi ilmaista transpoosin avulla, saadaan edellinen yhtälö muotoon

\[\tp{\ba_j}(\bb - A\hat{\bx}) = 0.\]

Keräämällä kaikki \(n\) tällaista yhtälöä yhteen saadaan yhtälö

\[\begin{split}\begin{augmatrix}{c} \tp{\ba_1}(\bb - A\hat{\bx}) \\ \tp{\ba_2}(\bb - A\hat{\bx}) \\ \vdots \\ \tp{\ba_n}(\bb - A\hat{\bx}) \end{augmatrix}=\begin{augmatrix}{c} 0 \\ 0 \\ \vdots \\ 0 \end{augmatrix}.\end{split}\]

Yhtälön vasen puoli voidaan sieventää muotoon

\[\begin{split}\begin{augmatrix}{c} \tp{\ba_1}(\bb - A\hat{\bx}) \\ \tp{\ba_2}(\bb - A\hat{\bx}) \\ \vdots \\ \tp{\ba_n}(\bb - A\hat{\bx}) \end{augmatrix} = \begin{augmatrix}{c} \tp{\ba_1} \\ \tp{\ba_2} \\ \vdots \\ \tp{\ba_n} \end{augmatrix}(\bb - A\hat{\bx}) = \tp{\begin{augmatrix}{cccc} \ba_1 & \ba_2 & \cdots & \ba_n \end{augmatrix}}(\bb - A\hat{\bx}) = \tp{A}(\bb - A\hat{\bx}).\end{split}\]

Näin saadaan yhtälö \(\tp{A}(\bb - A\hat{\bx})=\nv\) ja edelleen \(\tp{A}A\bx = \tp{A}\bb\).

Pienimmän neliösumman ratkaisu \(\hat{\bx}\) siis toteuttaa aina yhtälön \(\tp{A}A\bx = \tp{A}\bb\). Voidaan osoittaa, että tällä yhtälöllä on aina ratkaisuja, ja jokainen näistä on pienimmän neliösumman ratkaisu.

Lause 7.1.2

Olkoon \(A\) \(m\times n\)-matriisi ja \(\bb\in\R^m\). Tällöin yhtälöryhmän \(A\bx = \bb\) pienimmän neliösumman ratkaisut ovat täsmälleen yhtälön \(\tp{A}A\bx = \tp{A}\bb\) ratkaisu.

Yhtälöä \(\tp{A}A\bx = \tp{A}\bb\) kutsutaan yhtälöryhmän \(A\bx = \bb\) normaaliryhmäksi.

Huomaa, että pienimmän neliösumman ratkaisuja voi olla yksi tai useita. Tämä riippuu siitä, onko yhtälöllä \(\tp{A}A\bx = \tp{A}\bb\) yksi vai äärettömän monta ratkaisua.

Esimerkki 7.1.3

Yhtälöryhmällä

\[\begin{split}\begin{cases} x+5y = 3\\ 2x-2y = 2\\ -x+y =5 \end{cases}\end{split}\]

ei ole ratkaisuja, sillä sitä vastaavan matriisin redusoitu porrasmuoto on

\[\begin{split}\begin{augmatrix}{cc|c} 1 & 0& 0\\ 0 & 1 & 0\\ 0 & 0 &1 \end{augmatrix}.\end{split}\]

Yhtälöryhmälle voidaan etsiä pienimmän neliösumman ratkaisu, joka on mahdollisimman lähellä yhtälön ratkaisua. Merkitään

\[\begin{split}A=\begin{bmatrix} 1&5\\ 2&-2\\ -1&1 \end{bmatrix} \qquad \text{ja} \qquad \bb=\begin{bmatrix} 3\\ 2\\ 5 \end{bmatrix},\end{split}\]

jolloin yhtälöryhmä voidaan kirjoittaa muodossa \(A\bx=\bb\).

Pienimmän neliösumman ratkaisu saadaan selville ratkaisemalla yhtälö \(\tp{A}A\bx = \tp{A}\bb\). Nähdään, että

\[\begin{split}\tp{A}A= \begin{augmatrix}{cc} 6 & 0\\ 0 & 30 \end{augmatrix} \qquad\text{ja}\qquad \tp{A}\bb= \begin{augmatrix}{c} 2\\16 \end{augmatrix}.\end{split}\]

Matriisi \(\tp{A}A\) on kääntyvä, sillä sen determinantti on \(180\). Täten yhtälöllä \(\tp{A}A\bx=\tp{A}\bb\) on täsmälleen yksi ratkaisu, joka on etsitty pienimmän neliösumman ratkaisu. Se on

\[\begin{split}\hat{\bx}=(\tp{A}A)^{-1}\tp{A}\bb=\frac{1}{180} \begin{augmatrix}{cc} 30 & 0 \\ 0 & 6 \end{augmatrix} \begin{augmatrix}{c} 2 \\ 16 \end{augmatrix}= \begin{augmatrix}{c} \frac{1}{3}\\\frac{8}{15} \end{augmatrix}.\end{split}\]

Pienimmän neliösumman ratkaisun virhevektoriksi kutsutaan vektoria \(\br = \bb - A\hat{\bx}\) ja virheeksi normia \(\|\br\| = \|\bb - A\hat{\bx}\|\). Virhe kertoo, kuinka hyvän arvion ratkaisusta pienimmän neliösumman ratkaisu antaa. Jos alkuperäisellä yhtälöryhmällä on ratkaisuja, ovat ne samoja kuin pienimmän neliösumman menetelmän ratkaisut. Tällöin virhe on \(0\).

Edellisessä esimerkissä pienimmän neliösumman ratkaisun virhe on

\[\|\bb - A\hat{\bx}\| = \sqrt{(3 - 3)^2 + \left(2 + \frac{2}{5}\right)^2 + \left(5 - \frac{1}{5}\right)^2} = \frac{12}{\sqrt{5}}.\]
Oletetaan, että \(A \in \R^{m \times n}\) ja \(\bb \in \R^m\). Valitse paikkansa seuraavista pitävät väittämät. Jos yhtälöryhmällä \(A\bx = \bb\) ei ole ratkaisuja ja \(\hat{\bx}\) on pienimmän neliösumman ratkaisu, niin
Oletetaan, että \(A \in \R^{m \times n}\), \(\bb \in \R^m\) ja \(\bx \in \R^n\). Valitse paikkansa pitävät väittämät yhtälön \(A\bx = \bb\) pienimmän neliösumman ratkaisuille \(\hat{\bx}\).
Tarkastellaan seuraavaa väitettä: pienimmän neliösumman mielessä mille tahansa matriisille \(A\) yhtälöryhmän \(A\bx = \bb\) paras ratkaisu on \(\hat{\bx} = (\tp{A}A)^{-1}\tp{A}\bb\). Milloin väite on tosi?

Olkoon \(A\) mikä tahansa matriisi, jonka sarakkeet ovat lineaarisesti riippumattomia. Tarkastellaan matriisia \(A^{+} = (\tp{A}A)^{-1}\tp{A}\). Onko laskussa

\[AA^{+} = A(\tp{A}A)^{-1}\tp{A} = AA^{-1}(\tp{A})^{-1}\tp{A} = II = I\]

kaikki välivaiheet oikein?

Palautusta lähetetään...