Ortogonaaliset kannat ja matriisit
Palautetaan mieleen kahden vektorin \(\mathbf{u}\) ja
\(\mathbf{v}\) ortogonaalisuuden, eli kohtisuoruuden ehto
\[\mathbf{u}\cdot \mathbf{v}= 0.\]
Avaruuden \(\mathbb R^n\) vektoreita
\(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) sanotaan
ortogonaalisiksi, jos ne kaikki ovat pareittain ortogonaalisia, eli
\[\mathbf{v}_i \cdot \mathbf{v}_j = 0\]
aina, kun \(i \not= j\). Jos lisäksi \(\|\mathbf{v}_i\| = 1\)
jokaisella \(i = 1, 2, \ldots, k\), niin vektoreita
\(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) sanotaan
ortonormaaleiksi. Mitkä tahansa ortogonaaliset vektorit ovat
lineaarisesti riippumattomia.
Lause.
Olkoot
\(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) ortogonaalisia
nollasta poikkeavia vektoreita. Tällöin vektorit
\(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) ovat
lineaarisesti riippumattomat.
Oletetaan, että
\(c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_k\mathbf{v}_k = \mathbf{0}\).
Otetaan yhtälöstä puolittain pistetulo vektorin \(\mathbf{v}_i\)
kanssa, jolloin ortogonaalisuusoletuksen nojalla
\[(c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + \cdots + c_k\mathbf{v}_k) \cdot \mathbf{v}_i = c_i\mathbf{v}_i \cdot \mathbf{v}_i = c_i\|\mathbf{v}_i\|^2 = 0 = \mathbf{0}\cdot \mathbf{v}_i\]
jokaista \(i = 1, 2, \ldots, k\) kohti. Koska kaikki vektorit
eroavat nollasta, näiden ehtojen toteutumiseksi on oltava
\(c_1 = c_2 = \cdots = c_k = 0\), eli vektorit
\(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) ovat
lineaarisesti riippumattomat. \(\square\)
Huomautus.
Luonnollisen kannan vektorit
\(\mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_n\) ovat keskenään
ortonormaaleja, sillä
\(\mathbf{e}_i \cdot \mathbf{e}_j = \delta_{ij}\). Yleisemminkin
vektorit \(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\) ovat
ortonormaaleja jos ja vain jos
\[\begin{split}\mathbf{v}_i \cdot \mathbf{v}_j = \delta_{ij} =
\begin{cases}
1, & \text{kun } i = j \\ 0, & \text{kun } i \not= j.
\end{cases}\end{split}\]
Aliavaruuden \(S\) kantaa sanotaan ortogonaaliseksi tai
ortonormaaliksi, jos siihen kuuluvat vektorit ovat ortogonaaliset tai
ortonormaalit. Ortogonaalisella ja ortonormaalilla kannalla on seuraavat
miellyttävät ominaisuudet.
Lause.
Olkoon
\(\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\}\)
aliavaruuden \(S\) ortogonaalinen kanta, sekä \(\mathbf{x}\)
aliavaruuden \(S\) vektori. Tällöin
\[\mathbf{x}= \frac{\mathbf{x}\cdot \mathbf{v}_1}{\|\mathbf{v}_1\|^2}\mathbf{v}_1 + \frac{\mathbf{x}\cdot \mathbf{v}_2}{\|\mathbf{v}_2\|^2}\mathbf{v}_2 + \cdots + \frac{\mathbf{x}\cdot \mathbf{v}_k}{\|\mathbf{v}_k\|^2}\mathbf{v}_k.\]
Jos kanta on lisäksi ortonormaali, niin
\[\mathbf{x}= (\mathbf{x}\cdot \mathbf{v}_1)\mathbf{v}_1 + (\mathbf{x}\cdot \mathbf{v}_2) + \cdots + (\mathbf{x}\cdot \mathbf{v}_k)\mathbf{v}_k.\]
Lauseen sisältö on osoitettu luonnollisen kannan
vektoreille aiemmassa
esimerkissä. Pohdi, miten tämä voitaisiin
yleistää ortogonaalisiin ja muihin ortonormaaleihin kantoihin.
\(\square\)
Ortonormaalissa kannassa normille ja pistetulolle saadaan tutut
esitykset.
Lause.
Olkoon
\(\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\}\)
aliavaruuden \(S\) ortonormaali kanta. Jos
\[\mathbf{x}=\alpha_1\mathbf{v}_1+\alpha_2\mathbf{v}_2+\cdots+\alpha_k\mathbf{v}_k \qquad\text{ja}\qquad \mathbf{y}=\beta_1\mathbf{v}_1+\beta_2\mathbf{v}_2+\cdots+\beta_k\mathbf{v}_k,\]
niin
\[\mathbf{x}\cdot \mathbf{y}= \alpha_1\beta_1 + \alpha_2\beta_2 + \cdots + \alpha_k\beta_k\]
ja
\[\|\mathbf{x}\|^2 = \alpha_1^2 + \alpha_2^2 + \cdots + \alpha_k^2 = (\mathbf{v}_1 \cdot \mathbf{x})^2 + (\mathbf{v}_2 \cdot \mathbf{x})^2 + \cdots + (\mathbf{v}_k \cdot \mathbf{x})^2.\]
Merkitään
\[\begin{split}V =
\begin{bmatrix}
\mathbf{v}_1 & \mathbf{v}_2 & \cdots & \mathbf{v}_k
\end{bmatrix},\qquad\mathbf{a}=
\begin{bmatrix}
\alpha_1 \\ \alpha_2 \\ \vdots \\ \alpha_k
\end{bmatrix}\qquad\text{ja}\qquad \mathbf{b}=
\begin{bmatrix}
\beta_1 \\ \beta_2 \\ \vdots \\ \beta_k
\end{bmatrix},\end{split}\]
jolloin \(\mathbf{x}= V\mathbf{a}\) ja
\(\mathbf{y}= V\mathbf{b}\). Tulkitaan pistetulo matriisitulona,
jolloin
\[\mathbf{x}\cdot \mathbf{y}= \mathbf{x}^T\mathbf{y}= (V\mathbf{a})^TV\mathbf{b}= \mathbf{a}^TV^TV\mathbf{b}.\]
Koska \(\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\}\) on
ortonormaali kanta,
\[\begin{split}V^TV =
\begin{bmatrix}
\mathbf{v}_1^T\mathbf{v}_1 & \mathbf{v}_1^T\mathbf{v}_2 & \cdots & \mathbf{v}_1^T\mathbf{v}_k \\
\mathbf{v}_2^T\mathbf{v}_1 & \mathbf{v}_2^T\mathbf{v}_2 & \cdots & \mathbf{v}_2^T\mathbf{v}_k \\
\vdots & \vdots & \ddots & \vdots \\
\mathbf{v}_k^T\mathbf{v}_1 & \mathbf{v}_k^T\mathbf{v}_2 & \cdots & \mathbf{v}_k^T\mathbf{v}_k
\end{bmatrix} =
\begin{bmatrix}
\mathbf{v}_1 \cdot \mathbf{v}_1 & \mathbf{v}_1 \cdot \mathbf{v}_2 & \cdots & \mathbf{v}_1 \cdot \mathbf{v}_k \\
\mathbf{v}_2 \cdot \mathbf{v}_1 & \mathbf{v}_2 \cdot \mathbf{v}_2 & \cdots & \mathbf{v}_2 \cdot \mathbf{v}_k \\
\vdots & \vdots & \ddots & \vdots \\
\mathbf{v}_k \cdot \mathbf{v}_1 & \mathbf{v}_k \cdot \mathbf{v}_2 & \cdots & \mathbf{v}_k \cdot \mathbf{v}_k
\end{bmatrix} = [\delta_{ij}] = I_k,\end{split}\]
ja täten
\[\mathbf{x}\cdot \mathbf{y}= \mathbf{a}^TI_k\mathbf{b}= \mathbf{a}^T\mathbf{b}= \mathbf{a}\cdot \mathbf{b}= \alpha_1\beta_1 + \alpha_2\beta_2 + \cdots + \alpha_k\beta_k.\]
Tätä tulosta voidaan hyödyntää normin kaavan osoittamiseen. Nyt
\[\|\mathbf{x}\|^2 = \mathbf{x}\cdot \mathbf{x}= \alpha_1\alpha_1 + \alpha_2\alpha_2 + \cdots + \alpha_k\alpha_k = \alpha_1^2 + \alpha_2^2 + \cdots + \alpha_k^2,\]
kuten haluttiinkin. Viimeinen osa väitteestä seuraa edellisen lauseen
esityksestä vektorille ortonormaalissa kannassa. \(\square\)
Jokaiselle aliavaruudelle voidaan löytää ortogonaalinen kanta. Tehokkain
keino sen löytämiseksi on ortogonalisoida jo valmiiksi tunnettu kanta
projektioiden avulla. Tämä menetelmä tunnetaan Gram-Schmidtin
ortogonalisointiprosessina, ja sen todistus sivuutetaan. Algoritmin
vaiheet ovat kuitenkin varsin intuitiiviset.
Lause.
Olkoon
\(\{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_k\}\)
aliavaruuden \(S\) kanta. Tällöin
\(\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\}\), missä
\(\mathbf{v}_1 = \mathbf{x}_1\) ja
\[\begin{aligned}
\mathbf{v}_i &= \mathbf{x}_i - (\operatorname{proj}_{\mathbf{v}_1}(\mathbf{x}_i) + \operatorname{proj}_{\mathbf{v}_2}(\mathbf{x}_i) + \cdots + \operatorname{proj}_{\mathbf{v}_{i - 1}}(\mathbf{x}_i))\end{aligned}\]
jokaiselle \(i = 2, 3, \ldots, k\), on aliavaruuden \(S\)
ortogonaalinen kanta.
Ortonormaali kanta
\(\{\mathbf{w}_1, \mathbf{w}_2, \ldots, \mathbf{w}_k\}\) on helppo
muodostaa ortogonaalisesta kannasta normeeraamalla jokaisen
kantavektorin yksikön pituiseksi.
\[\mathbf{w}_1=\frac{\mathbf{v}_1}{\|\mathbf{v}_1\|}, \qquad \mathbf{w}_2=\frac{\mathbf{v}_2}{\|\mathbf{v}_2\|}, \qquad\ldots\qquad \mathbf{w}_k=\frac{\mathbf{v}_k}{\|\mathbf{v}_k\|}\]
Monesti numeeriset laskut on tehokkainta suorittaa ortonormaalissa
kannassa.
Esimerkki.
Tiedetään, että
\[\begin{split}\operatorname{rref}\begin{bmatrix}
1 & 1 & 1 & 1 \\ 1 & 2 & 4 & 2 \\ 2 & 0 & -4 & 1
\end{bmatrix} = \begin{bmatrix}
1 & 0 & -2 & 0 \\ 0 & 1 & 3 & 0 \\ 0 & 0 & 0 & 1
\end{bmatrix}.\end{split}\]
Etsi alkuperäisen matriisin sarakeavaruudelle ortonormaali kanta.
Redusoidusta riviporrasmuodosta nähdään, että eräs
sarakeavaruuden kanta on
\[\begin{split}\left\{
\begin{bmatrix}
1 \\ 1 \\ 2
\end{bmatrix},
\begin{bmatrix}
1 \\ 2 \\ 0
\end{bmatrix},
\begin{bmatrix}
1 \\ 2 \\ 1
\end{bmatrix}
\right\}.\end{split}\]
Valitaan ortogonaalista kantaa varten \(\mathbf{v}_1 = (1, 1, 2)\),
jolloin Gram-Schmidtin prosessi tuottaa lopuiksi kantavektoreiksi
\[\begin{split}\mathbf{v}_2 =
\begin{bmatrix}
1 \\ 2 \\ 0
\end{bmatrix} - \operatorname{proj}_{\mathbf{v}_1}
\begin{bmatrix}
1 \\ 2 \\ 0
\end{bmatrix} =
\begin{bmatrix}
1 - \frac{1}{2} \cdot 1 \\ 2 - \frac{1}{2} \cdot 1 \\ 0 - \frac{1}{2} \cdot 2
\end{bmatrix} =
\begin{bmatrix}
\frac{1}{2} \\ \frac{3}{2} \\ -1
\end{bmatrix} = \frac{1}{2}
\begin{bmatrix}
1 \\ 3 \\ -2
\end{bmatrix}\end{split}\]
ja
\[\begin{split}\mathbf{v}_3 =
\begin{bmatrix}
1 \\ 2 \\ 1
\end{bmatrix} - \operatorname{proj}_{\mathbf{v}_1}
\begin{bmatrix}
1 \\ 2 \\ 1
\end{bmatrix} - \operatorname{proj}_{\mathbf{v}_2}
\begin{bmatrix}
1 \\ 2 \\ 1
\end{bmatrix} =
\begin{bmatrix}
1 - \frac{5}{6} \cdot 1 - \frac{5}{7} \cdot \frac{1}{2} \\ 2 - \frac{5}{6} \cdot 1 - \frac{5}{7} \cdot \frac{3}{2} \\ 1 - \frac{5}{6} \cdot 2 + \frac{5}{7} \cdot 1
\end{bmatrix} =
\begin{bmatrix}
-\frac{4}{21} \\ \frac{2}{21} \\ \frac{1}{21}
\end{bmatrix} = \frac{1}{21}
\begin{bmatrix}
-4 \\ 2 \\ 1
\end{bmatrix}.\end{split}\]
Laskemalla pistetulot pareittain nähdään, että kantavektorit
\(\mathbf{v}_1\), \(\mathbf{v}_2\) ja \(\mathbf{v}_3\)
todella ovat ortogonaalisia. Normeerataan jokainen niistä
yksikkövektoriksi, jotta saadaan ortonormaali sarakeavaruuden kanta
\[\begin{split}\left\{\frac{1}{\sqrt{6}}
\begin{bmatrix}
1 \\ 1 \\ 2
\end{bmatrix}, \frac{1}{\sqrt{14}}
\begin{bmatrix}
1 \\ 3 \\ -2
\end{bmatrix}, \frac{1}{\sqrt{21}}
\begin{bmatrix}
-4 \\ 2 \\ 1
\end{bmatrix}
\right\}.\end{split}\]
Aiemman lauseen
todistuksessa törmättiin ortonormaaleista sarakkeista koostuvaan
matriisiin \(V\), jolle \(V^TV = I_k\). Neliömatriisien
tapauksessa tämä ominaisuus määrittelee mielenkiintoisen matriisien
luokan.
Merkitään
\[Q=\begin{bmatrix}\mathbf{q}_1 & \mathbf{q}_2 & \cdots & \mathbf{q}_n\end{bmatrix},\]
jolloin ehto \(Q^TQ = I_n\) (tai \(QQ^T = I_n\)) tarkoittaa
sitä, että
\[\mathbf{q}_i \cdot \mathbf{q}_j = \delta_{ij}.\]
Toisin sanoen ortogonaalisen matriisin sarakkeet ovat ortonormaalit.
Ortonormaalit vektorit ovat lineaarisesti riippumattomia, joten
\(\operatorname{rref}(Q) = I_n\), ja täten ortogonaalinen matriisi
\(Q\) on kääntyvä. Tämä tulos on määritelmän perusteella odotettu,
ja käänteismatriisi on sen valossa \(Q^{-1} = Q^T\).
Pistetulon ja normin esityksestä ortonormaalissa kannassa seuraa,
että ortogonaalinen matriisi ei vaikuta pistetulon tai normin arvoon.
Seuraus.
Jos \(n \times n\)-matriisi \(Q\) on
ortogonaalinen, niin
\(Q\mathbf{x}\cdot Q\mathbf{y}= \mathbf{x}\cdot \mathbf{y}\) ja
\(\|Q\mathbf{x}\| = \|\mathbf{x}\|\) aina, kun \(\mathbf{x}\) ja
\(\mathbf{y}\) ovat avaruuden \(\mathbb R^n\) vektoreita.
Jätetään harjoitustehtäväksi. \(\square\)