- MAT-04601
- 10. Derivaatta
- 10.8 Pienimmän neliösumman menetelmä
Pienimmän neliösumman menetelmä¶
Palataan hetkeksi ratkaisemaan yhtälöryhmää \(A\mathbf{x}= \mathbf{b}\), missä \(A\) on matriisi ja \(\mathbf{b}\) tunnettu vektori. Insinöörien elämässä tulee usein vastaan ongelmia, missä tällä yhtälöryhmällä ei yksinkertaisesti ole ratkaisua. Yksi yleinen syy on se, että reaalimaailman mittaukset eivät ole virheettömiä ja tämän vuoksi tuottavat ristiriitoja käytössä olevaan malliin. Tällöin yhtälöryhmälle \(A\mathbf{x}=\mathbf{b}\) voidaan tarkan ratkaisun sijaan etsiä ”paras mahdollinen” ratkaisu, jota kutsutaan pienimmän neliösumman ratkaisuksi.
Määritelmä.
Olkoon \(A\) jokin \(m\times n\)-matriisi ja \(\mathbf{b}\) avaruuden \(\mathbb R^m\) vektori. Tällöin yhtälöryhmän \(A\mathbf{x}=\mathbf{b}\) pienimmän neliösumman ratkaisu (least squares solution) on avaruuden \(\mathbb R^n\) vektori \(\overline{\mathbf{x}}\), joka toteuttaa epäyhtälön
aina, kun \(\mathbf{x}\in\mathbb R^n\).
Jos yhtälöryhmällä \(A\mathbf{x}=\mathbf{b}\) ei ole ratkaisua, niin \(\mathbf{b}\not\in \mathcal{R}(A)\). Pienimmän neliösumman ratkaisu on sellainen vektori \(\overline{\mathbf{x}}\), että vektori \(A\overline{\mathbf{x}}\in \mathcal{R}(A)\) on ikään kuin lähimpänä vektoria \(\mathbf{b}\). Nyt kun periaate on selvä, tarvitsee enää tietää, miten \(\overline{\mathbf{x}}\) lasketaan.
Merkitään virhevektoria, eli residuaalia \(\mathbf{e}= \mathbf{b}- A\mathbf{x}\), jolloin komponenteittain
Pienimmän neliösumman ratkaisun ajatuksena on minimoida normi \(\|\mathbf{e}\|\). Samanaikaisesti minimoidaan myös normin neliö
sillä normi on ei-negatiivinen reaaliluku. Tässä summassa jokainen termi on ei-negatiivinen, ja siksi se saavuttaa minimiarvonsa täsmälleen silloin, kun jokainen yhteenlaskettavista termeistä \(e_i^2\), \(i = 1, 2, \ldots, m\) minimoituu.
Pidetään summaa \(\|\mathbf{e}\|^2 = e_1^2 + e_2^2 + \cdots + e_m^2\) vuorotellen muuttujavektorin \(\mathbf{x}\) komponenttien \(x_j\), \(j = 1, 2, \ldots, n\) funktiona. Nähdään, että
jolloin ketjusäännön nojalla
Matriisitulon avulla kirjoitettuna
missä \(\mathbf{a}_j\) on matriisin \(A\) sarake \(j\). Kun kaikki tällaiset derivaatat kerätään pystyvektoriin, saadaan
Asiaa sen tarkemmin todistamatta väitetään, että virhevektorin normin neliö \(\|\mathbf{e}\|^2\) minimoituu silloin, kun kaikki derivaatat ovat yhtä aikaa nollia, eli kun \(-2A^T(\mathbf{b}- A\mathbf{x}) = \mathbf{0}\). Tämä ehto on yhtäpitävä yhtälön
kanssa.
Määritelmä.
Yhtälöryhmän \(A\mathbf{x}= \mathbf{b}\) normaaliryhmä on \(A^TA\mathbf{x}= A^T\mathbf{b}\).
Pienimmän neliösumman menetelmää voidaan lähestyä myös teoreettisemmin seuraavasta näkökulmasta. Jos matriisiyhtälössä \(A\mathbf{x}= \mathbf{b}\) matriisi \(A\) ei ole kääntyvä, voidaan silti yrittää löytää mahdollisimman hyvin käänteismatriisin käyttäytymistä imitoiva matriisi. Tällaista matriisia kutsutaan pseudoinverssiksi. Seuraava tulos otetaan käyttöön todistamatta.
Lause.
Jos \(A\) on \(m \times n\)-matriisi, niin on olemassa yksikäsitteinen \(n \times m\)-matriisi \(A^+\), joka toteuttaa ehdot
- \(AA^+A = A\),
- \(A^+AA^+ = A^+\),
- \((AA^+)^T = AA^+\)
- \((A^+A)^T = A^+A\).
Matriisia \(A^+\) sanotaan matriisin \(A\) Moore-Penrosen pseudoinverssiksi.
Lemma.
Jos \(A\) on \(m \times n\)-matriisi, niin \(\mathcal{R}(A^TA) = \mathcal{R}(A^T)\).
Oletetaan, että \(\mathbf{y}\in \mathcal{R}(A^TA)\). Tällöin \(\mathbf{y}= A^TA\mathbf{x}\) jollekin avaruuden \(\mathbb R^n\) vektorille \(\mathbf{x}\) ja \(A\mathbf{x}= \mathbf{z}\) on avaruuden \(\mathbb R^m\) vektori. Täten \(\mathbf{y}= A^T\mathbf{z}\) jollekin avaruuden \(\mathbb R^m\) vektorille \(\mathbf{z}\), eli \(\mathbf{y}\in \mathcal{R}(A^T)\).
Oletetaan sitten, että \(\mathbf{y}\in \mathcal{R}(A^T)\), eli \(\mathbf{y}= A^T\mathbf{x}\) jollekin avaruuden \(\mathbb R^m\) vektorille \(\mathbf{x}\). Sijoitetaan matriisin \(A\) paikalle Moore-Penrosen pseudoinverssin \(A^+\) sisältävä matriisitulo edellisen lauseen ensimmäisen ehdon mukaisesti ja sovelletaan muitakin pseudoinverssin ominaisuuksia.
Tässä \(A^+\mathbf{x}= \mathbf{z}\) on avaruuden \(\mathbb R^n\) vektori, jolle \(\mathbf{y}= A^TA\mathbf{z}\), ja täten \(\mathbf{y}\in \mathcal{R}(A^TA)\).
Edellä olevista päättelyistä seuraa, että \(\mathcal{R}(A^TA) \subseteq \mathcal{R}(A^T)\) ja \(\mathcal{R}(A^T) \subseteq \mathcal{R}(A^TA)\), joten \(\mathcal{R}(A^TA) = \mathcal{R}(A^T)\). \(\square\)
Nyt voidaan lopulta osoittaa, että yhtälöryhmän \(A\mathbf{x}= \mathbf{b}\) normaaliryhmällä \(A^TA\mathbf{x}= A^T\mathbf{b}\) on aina vähintään yksi ratkaisu.
Lause.
Olkoon \(A\) \(m\times n\)-matriisi ja \(\mathbf{b}\in\mathbb R^m\). Tällöin yhtälöryhmän \(A\mathbf{x}=\mathbf{b}\) normaaliryhmällä on ratkaisu \(\mathbf{x}= \overline{\mathbf{x}}\), ja tämä on yhtälöryhmän \(A\mathbf{x}= \mathbf{b}\) pienimmän neliösumman ratkaisu.
Vektori \(A^T\mathbf{b}\) kuuluu luonnollisesti matriisin \(A^T\) sarakeavaruuteen \(\mathcal{R}(A^T)\). Edellisen lemman nojalla siis \(A^T\mathbf{b}\in \mathcal{R}(A^TA)\), ja täten normaaliryhmällä \(A^TA\mathbf{x}= A^T\mathbf{b}\) on ratkaisu \(\overline{\mathbf{x}}\). Osion alussa johdetun mukaisesti sijoituksella \(\mathbf{x}= \overline{\mathbf{x}}\) minimoidaan virhevektorin \(\mathbf{b}- A\mathbf{x}\) normi, joten
aina, kun \(\mathbf{x}\in \mathbb R^n\). \(\square\)
Pienimmän neliösumman ratkaisu on siis aina olemassa, ja edellinen lause tarjoaa keinon löytää sen.
Huomautus.
Pienimmän neliösumman ratkaisun olemassaolo ei tarkoita sitä, että se olisi yksikäsitteinen. On hyvinkin mahdollista, että matriisi normaaliryhmän kerroinmatriisi \(A^TA\) ei ole kääntyvä, ja tällöin normaaliryhmällä on ääretön määrä ratkaisuja.
Varmistetaan vielä, että pienimmän neliösumman ratkaisu toimii kuten yhtälön \(A\mathbf{x}= \mathbf{b}\) tarkkakin ratkaisu ainakin seuraavan lauseen mielessä.
Lause.
Olkoon \(\overline{\mathbf{x}}\) yhtälöryhmän \(A\mathbf{x}= \mathbf{b}\) pienimmän neliösumman ratkaisu. Jos yhtälöryhmällä \(A\mathbf{x}=\mathbf{b}\) on ratkaisuja, niin tällöin myös \(\overline{\mathbf{x}}\) on sen ratkaisu.
Normaaliryhmä \(A^TA\mathbf{x}=A^T\mathbf{b}\) voidaan ratkaista Gaussin eliminoinnilla, kuten mikä tahansa muukin yhtälöryhmä. Erityisen kiintoisa tapaus syntyy silloin, kun ratkaisu on yksikäsitteinen, eli kerroinmatriisi \(A^TA\) on kääntyvä. Tällöin pienimmän neliösumman ratkaisuksi tulee
Moore-Penrosen pseudoinverssi sattuu tässä tapauksessa olemaan täsmälleen se matriisi, joka ”kääntää” matriisin \(A\): jos \(A^TA\) on kääntyvä, niin \(A^+ = (A^TA)^{-1}A^T\) ja pienimmän neliösumman ratkaisu on \(\overline{\mathbf{x}} = A^+\mathbf{b}\).
Lause.
Olkoon \(A\) \(m \times n\)-matriisi. Tällöin seuraavat väitteet ovat voimassa.
- Jos \(A^TA\) on kääntyvä, niin \(A^+A = I_n\).
- Jos \(A\) on kääntyvä, niin \(A^+ = A^{-1}\).
Käänteismatriisia \((A^TA)^{-1}\) kutsutaan yhtälöryhmän \(A\mathbf{x}= \mathbf{b}\) normalisoivaksi kertoimeksi, ja sen olemassaololle löydetään riittävä ja välttämätön ehto.
Lause.
Normalisoiva kerroin \((A^TA)^{-1}\) on olemassa täsmälleen silloin, kun matriisin \(A\) sarakkeet ovat lineaarisesti riippumattomat.
Tiedetään, että \(m \times n\)-matriisin \(A\) sarakkeet ovat lineaarisesti riippumattomat täsmälleen silloin, kun \(\operatorname{rank}(A) = n\). Vastaavasti \(n \times n\)-matriisi \(A^TA\) on kääntyvä jos ja vain jos \(\operatorname{rank}(A^TA)=n\). Mutta aikaisemman lemman nojalla \(\mathcal{R}(A^TA) = \mathcal{R}(A^T)\), joten
ja väite on todistettu. \(\square\)
Esimerkki.
Tutki yhtälöryhmän
ratkaisujen olemassaoloa. Jos ratkaisuja ei ole, etsi residuaalin normin minimoiva approksimaatio ryhmän ratkaisulle. Jos tämä arvio on yksikäsitteinen, etsi yhtälöryhmän kerroinmatriisille Moore-Penrosen pseudoinverssi.
Viedään yhtälöryhmän kokonaismatriisi redusoituun riviporrasmuotoon.
Tästä nähdään, että yhtälöryhmällä ei ole tarkkaa ratkaisua, joten etsitään pienimmän neliösumman ratkaisu. Normaaliryhmän kerroinmatriisi ja vakiovektori
Matriisi \(A^TA\) on selvästi kääntyvä, sillä se on kolmiomatriisi, jolla ei ole nolla-alkiota diagonaalillaan. Täten normaaliryhmällä \(A^TA\mathbf{x}=A^T\mathbf{b}\) on yksikäsitteinen pienimmän neliösumman ratkaisu
Kerroinmatriisin \(A\) pseudoinverssiksi saadaan tällöin