Ortogonaaliset kannat ja matriisit¶

Palautetaan mieleen kahden vektorin \(\mathbf{u}\) ja \(\mathbf{v}\) ortogonaalisuuden, eli kohtisuoruuden ehto

\[\mathbf{u}\cdot \mathbf{v}= 0.\]

Avaruuden \(\mathbb R^n\) vektoreita \(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) sanotaan ortogonaalisiksi, jos ne kaikki ovat pareittain ortogonaalisia, eli

\[\mathbf{v}_i \cdot \mathbf{v}_j = 0\]

aina, kun \(i \not= j\). Jos lisäksi \(\|\mathbf{v}_i\| = 1\) jokaisella \(i = 1, 2, \ldots, k\), niin vektoreita \(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) sanotaan ortonormaaleiksi. Mitkä tahansa ortogonaaliset vektorit ovat lineaarisesti riippumattomia.

Lause.

Olkoot \(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) ortogonaalisia nollasta poikkeavia vektoreita. Tällöin vektorit \(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) ovat lineaarisesti riippumattomat.

Todistus.

Oletetaan, että \(c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_k\mathbf{v}_k = \mathbf{0}\). Otetaan yhtälöstä puolittain pistetulo vektorin \(\mathbf{v}_i\) kanssa, jolloin ortogonaalisuusoletuksen nojalla

\[(c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_k\mathbf{v}_k) \cdot \mathbf{v}_i = c_i\mathbf{v}_i \cdot \mathbf{v}_i = c_i\|\mathbf{v}_i\|^2 = 0 = \mathbf{0}\cdot \mathbf{v}_i\]

jokaista \(i = 1, 2, \ldots, k\) kohti. Koska kaikki vektorit eroavat nollasta, näiden ehtojen toteutumiseksi on oltava \(c_1 = c_2 = \cdots = c_k = 0\), eli vektorit \(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) ovat lineaarisesti riippumattomat. \(\square\)

Huomautus.

Luonnollisen kannan vektorit \(\mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_n\) ovat keskenään ortonormaaleja, sillä \(\mathbf{e}_i \cdot \mathbf{e}_j = \delta_{ij}\). Yleisemminkin vektorit \(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) ovat ortonormaaleja jos ja vain jos

\[\begin{split}\mathbf{v}_i \cdot \mathbf{v}_j = \delta_{ij} = \begin{cases} 1, & \text{kun } i = j \\ 0, & \text{kun } i \not= j. \end{cases}\end{split}\]

Aliavaruuden \(S\) kantaa sanotaan ortogonaaliseksi tai ortonormaaliksi, jos siihen kuuluvat vektorit ovat ortogonaaliset tai ortonormaalit. Ortogonaalisella ja ortonormaalilla kannalla on seuraavat miellyttävät ominaisuudet.

Lause.

Olkoon \(\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\}\) aliavaruuden \(S\) ortogonaalinen kanta, sekä \(\mathbf{x}\) aliavaruuden \(S\) vektori. Tällöin

\[\mathbf{x}= \frac{\mathbf{x}\cdot \mathbf{v}_1}{\|\mathbf{v}_1\|^2}\mathbf{v}_1 + \frac{\mathbf{x}\cdot \mathbf{v}_2}{\|\mathbf{v}_2\|^2}\mathbf{v}_2 + \cdots + \frac{\mathbf{x}\cdot \mathbf{v}_k}{\|\mathbf{v}_k\|^2}\mathbf{v}_k.\]

Jos kanta on lisäksi ortonormaali, niin

\[\mathbf{x}= (\mathbf{x}\cdot \mathbf{v}_1)\mathbf{v}_1 + (\mathbf{x}\cdot \mathbf{v}_2) + \cdots + (\mathbf{x}\cdot \mathbf{v}_k)\mathbf{v}_k.\]

Todistus.

Lauseen sisältö on osoitettu luonnollisen kannan vektoreille aiemmassa esimerkissä. Pohdi, miten tämä voitaisiin yleistää ortogonaalisiin ja muihin ortonormaaleihin kantoihin. \(\square\)

Ortonormaalissa kannassa normille ja pistetulolle saadaan tutut esitykset.

Lause.

Olkoon \(\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\}\) aliavaruuden \(S\) ortonormaali kanta. Jos

\[\mathbf{x}=\alpha_1\mathbf{v}_1+\alpha_2\mathbf{v}_2+\cdots+\alpha_k\mathbf{v}_k \qquad\text{ja}\qquad \mathbf{y}=\beta_1\mathbf{v}_1+\beta_2\mathbf{v}_2+\cdots+\beta_k\mathbf{v}_k,\]

niin

\[\mathbf{x}\cdot \mathbf{y}= \alpha_1\beta_1 + \alpha_2\beta_2 + \cdots + \alpha_k\beta_k\]

\[\|\mathbf{x}\|^2 = \alpha_1^2 + \alpha_2^2 + \cdots + \alpha_k^2 = (\mathbf{v}_1 \cdot \mathbf{x})^2 + (\mathbf{v}_2 \cdot \mathbf{x})^2 + \cdots + (\mathbf{v}_k \cdot \mathbf{x})^2.\]

Todistus.

Merkitään

\[\begin{split}V = \begin{bmatrix} \mathbf{v}_1 & \mathbf{v}_2 & \cdots & \mathbf{v}_k \end{bmatrix},\qquad\mathbf{a}= \begin{bmatrix} \alpha_1 \\ \alpha_2 \\ \vdots \\ \alpha_k \end{bmatrix}\qquad\text{ja}\qquad \mathbf{b}= \begin{bmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{bmatrix},\end{split}\]

jolloin \(\mathbf{x}= V\mathbf{a}\) ja \(\mathbf{y}= V\mathbf{b}\). Tulkitaan pistetulo matriisitulona, jolloin

\[\mathbf{x}\cdot \mathbf{y}= \mathbf{x}^T\mathbf{y}= (V\mathbf{a})^TV\mathbf{b}= \mathbf{a}^TV^TV\mathbf{b}.\]

Koska \(\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\}\) on ortonormaali kanta,

\[\begin{split}V^TV = \begin{bmatrix} \mathbf{v}_1^T\mathbf{v}_1 & \mathbf{v}_1^T\mathbf{v}_2 & \cdots & \mathbf{v}_1^T\mathbf{v}_k \\ \mathbf{v}_2^T\mathbf{v}_1 & \mathbf{v}_2^T\mathbf{v}_2 & \cdots & \mathbf{v}_2^T\mathbf{v}_k \\ \vdots & \vdots & \ddots & \vdots \\ \mathbf{v}_k^T\mathbf{v}_1 & \mathbf{v}_k^T\mathbf{v}_2 & \cdots & \mathbf{v}_k^T\mathbf{v}_k \end{bmatrix} = \begin{bmatrix} \mathbf{v}_1 \cdot \mathbf{v}_1 & \mathbf{v}_1 \cdot \mathbf{v}_2 & \cdots & \mathbf{v}_1 \cdot \mathbf{v}_k \\ \mathbf{v}_2 \cdot \mathbf{v}_1 & \mathbf{v}_2 \cdot \mathbf{v}_2 & \cdots & \mathbf{v}_2 \cdot \mathbf{v}_k \\ \vdots & \vdots & \ddots & \vdots \\ \mathbf{v}_k \cdot \mathbf{v}_1 & \mathbf{v}_k \cdot \mathbf{v}_2 & \cdots & \mathbf{v}_k \cdot \mathbf{v}_k \end{bmatrix} = [\delta_{ij}] = I_k,\end{split}\]

ja täten

\[\mathbf{x}\cdot \mathbf{y}= \mathbf{a}^TI_k\mathbf{b}= \mathbf{a}^T\mathbf{b}= \mathbf{a}\cdot \mathbf{b}= \alpha_1\beta_1 + \alpha_2\beta_2 + \cdots + \alpha_k\beta_k.\]

Tätä tulosta voidaan hyödyntää normin kaavan osoittamiseen. Nyt

\[\|\mathbf{x}\|^2 = \mathbf{x}\cdot \mathbf{x}= \alpha_1\alpha_1 + \alpha_2\alpha_2 + \cdots + \alpha_k\alpha_k = \alpha_1^2 + \alpha_2^2 + \cdots + \alpha_k^2,\]

kuten haluttiinkin. Viimeinen osa väitteestä seuraa edellisen lauseen esityksestä vektorille ortonormaalissa kannassa. \(\square\)

Jokaiselle aliavaruudelle voidaan löytää ortogonaalinen kanta. Tehokkain keino sen löytämiseksi on ortogonalisoida jo valmiiksi tunnettu kanta projektioiden avulla. Tämä menetelmä tunnetaan Gram-Schmidtin ortogonalisointiprosessina, ja sen todistus sivuutetaan. Algoritmin vaiheet ovat kuitenkin varsin intuitiiviset.

Lause.

Olkoon \(\{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_k\}\) aliavaruuden \(S\) kanta. Tällöin \(\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\}\), missä \(\mathbf{v}_1 = \mathbf{x}_1\) ja

\[\begin{aligned} \mathbf{v}_i &= \mathbf{x}_i - (\operatorname{proj}_{\mathbf{v}_1}(\mathbf{x}_i) + \operatorname{proj}_{\mathbf{v}_2}(\mathbf{x}_i) + \cdots + \operatorname{proj}_{\mathbf{v}_{i - 1}}(\mathbf{x}_i))\end{aligned}\]

jokaiselle \(i = 2, 3, \ldots, k\), on aliavaruuden \(S\) ortogonaalinen kanta.

Ortonormaali kanta \(\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_k\}\) on helppo muodostaa ortogonaalisesta kannasta normeeraamalla jokaisen kantavektorin yksikön pituiseksi.

\[\mathbf{w}_1=\frac{\mathbf{v}_1}{\|\mathbf{v}_1\|}, \qquad \mathbf{w}_2=\frac{\mathbf{v}_2}{\|\mathbf{v}_2\|}, \qquad\ldots\qquad \mathbf{w}_k=\frac{\mathbf{v}_k}{\|\mathbf{v}_k\|}\]

Monesti numeeriset laskut on tehokkainta suorittaa ortonormaalissa kannassa.

Esimerkki.

Tiedetään, että

\[\begin{split}\operatorname{rref}\begin{bmatrix} 1 & 1 & 1 & 1 \\ 1 & 2 & 4 & 2 \\ 2 & 0 & -4 & 1 \end{bmatrix} = \begin{bmatrix} 1 & 0 & -2 & 0 \\ 0 & 1 & 3 & 0 \\ 0 & 0 & 0 & 1 \end{bmatrix}.\end{split}\]

Etsi alkuperäisen matriisin sarakeavaruudelle ortonormaali kanta.

Ratkaisu.

Redusoidusta riviporrasmuodosta nähdään, että eräs sarakeavaruuden kanta on

\[\begin{split}\left\{ \begin{bmatrix} 1 \\ 1 \\ 2 \end{bmatrix}, \begin{bmatrix} 1 \\ 2 \\ 0 \end{bmatrix}, \begin{bmatrix} 1 \\ 2 \\ 1 \end{bmatrix} \right\}.\end{split}\]

Valitaan ortogonaalista kantaa varten \(\mathbf{v}_1 = (1, 1, 2)\), jolloin Gram-Schmidtin prosessi tuottaa lopuiksi kantavektoreiksi

\[\begin{split}\mathbf{v}_2 = \begin{bmatrix} 1 \\ 2 \\ 0 \end{bmatrix} - \operatorname{proj}_{\mathbf{v}_1} \begin{bmatrix} 1 \\ 2 \\ 0 \end{bmatrix} = \begin{bmatrix} 1 - \frac{1}{2} \cdot 1 \\ 2 - \frac{1}{2} \cdot 1 \\ 0 - \frac{1}{2} \cdot 2 \end{bmatrix} = \begin{bmatrix} \frac{1}{2} \\ \frac{3}{2} \\ -1 \end{bmatrix} = \frac{1}{2} \begin{bmatrix} 1 \\ 3 \\ -2 \end{bmatrix}\end{split}\]

\[\begin{split}\mathbf{v}_3 = \begin{bmatrix} 1 \\ 2 \\ 1 \end{bmatrix} - \operatorname{proj}_{\mathbf{v}_1} \begin{bmatrix} 1 \\ 2 \\ 1 \end{bmatrix} - \operatorname{proj}_{\mathbf{v}_2} \begin{bmatrix} 1 \\ 2 \\ 1 \end{bmatrix} = \begin{bmatrix} 1 - \frac{5}{6} \cdot 1 - \frac{5}{7} \cdot \frac{1}{2} \\ 2 - \frac{5}{6} \cdot 1 - \frac{5}{7} \cdot \frac{3}{2} \\ 1 - \frac{5}{6} \cdot 2 + \frac{5}{7} \cdot 1 \end{bmatrix} = \begin{bmatrix} -\frac{4}{21} \\ \frac{2}{21} \\ \frac{1}{21} \end{bmatrix} = \frac{1}{21} \begin{bmatrix} -4 \\ 2 \\ 1 \end{bmatrix}.\end{split}\]

Laskemalla pistetulot pareittain nähdään, että kantavektorit \(\mathbf{v}_1\), \(\mathbf{v}_2\) ja \(\mathbf{v}_3\) todella ovat ortogonaalisia. Normeerataan jokainen niistä yksikkövektoriksi, jotta saadaan ortonormaali sarakeavaruuden kanta

\[\begin{split}\left\{\frac{1}{\sqrt{6}} \begin{bmatrix} 1 \\ 1 \\ 2 \end{bmatrix}, \frac{1}{\sqrt{14}} \begin{bmatrix} 1 \\ 3 \\ -2 \end{bmatrix}, \frac{1}{\sqrt{21}} \begin{bmatrix} -4 \\ 2 \\ 1 \end{bmatrix} \right\}.\end{split}\]

Aiemman lauseen todistuksessa törmättiin ortonormaaleista sarakkeista koostuvaan matriisiin \(V\), jolle \(V^TV = I_k\). Neliömatriisien tapauksessa tämä ominaisuus määrittelee mielenkiintoisen matriisien luokan.

Määritelmä.

\(n \times n\)-neliömatriisi \(Q\) on ortogonaalinen, jos \(Q^TQ = I_n = QQ^T\).

Merkitään

\[Q=\begin{bmatrix}\mathbf{q}_1 & \mathbf{q}_2 & \cdots & \mathbf{q}_n\end{bmatrix},\]

jolloin ehto \(Q^TQ = I_n\) (tai \(QQ^T = I_n\)) tarkoittaa sitä, että

\[\mathbf{q}_i \cdot \mathbf{q}_j = \delta_{ij}.\]

Toisin sanoen ortogonaalisen matriisin sarakkeet ovat ortonormaalit. Ortonormaalit vektorit ovat lineaarisesti riippumattomia, joten \(\operatorname{rref}(Q) = I_n\), ja täten ortogonaalinen matriisi \(Q\) on kääntyvä. Tämä tulos on määritelmän perusteella odotettu, ja käänteismatriisi on sen valossa \(Q^{-1} = Q^T\).

Pistetulon ja normin esityksestä ortonormaalissa kannassa seuraa, että ortogonaalinen matriisi ei vaikuta pistetulon tai normin arvoon.

Seuraus.

Jos \(n \times n\)-matriisi \(Q\) on ortogonaalinen, niin \(Q\mathbf{x}\cdot Q\mathbf{y}= \mathbf{x}\cdot \mathbf{y}\) ja \(\|Q\mathbf{x}\| = \|\mathbf{x}\|\) aina, kun \(\mathbf{x}\) ja \(\mathbf{y}\) ovat avaruuden \(\mathbb R^n\) vektoreita.

Todistus.

Jätetään harjoitustehtäväksi. \(\square\)