Kap. 7 – Symmetriske matriser og kvadratiske former

Kap. 7 Symmetriske matriser og kvadratiske former
Vi skal koble diagonalisering av matriser sammen med
ortogonalitet. Skal bl.a. se på symmetriske matriser som har
uvanlig pene egenskaper mht. diagonalisering. Knyttet til
symmetriske matriser har vi kvadratiske former og vi skal studere
visse optimeringsproblemer for disse. Til slutt ser vi på
singulærverdi dekomposisjonen til en matrise. Den er nyttig i
mange anvendelser.
7.1 Symmetriske matriser
I
I
I
Vi skal se at alle symmetriske matriser er diagonaliserbare, og
har spesielle “spektrale” egenskaper.
Singulærverdi dekomposisjonen til en (rektangulær) matrise A
(avsnitt 7.4), henger nøye sammen med diagonaliseringen av
den symmetriske matrisen AT A.
For komplekse matriser er det analoge til symmetrisk det som
kalles ”selv-adjungerte” (eller “Hermitiske”) matriser. Disse
spiller en fremtrende rolle i fysikk (spesielt i kvantemekanikk).
1 / 23
Definisjon. En n × n (reell) matrise A kalles symmetrisk dersom
AT = A . Hvis A = [aij ], så er A symmetrisk hvis og bare hvis
aij = aji for alle i, j.


a b c
F.eks. er matrisen A =  b d e  er symmetrisk.
c e f
Alle diagonalmatriser er symmetriske.
Hvis A ∈ Mn (R), så er B = A + AT symmetrisk. Og hvis
A ∈ Mm×n (R), så er C = AT A symmetrisk.
Hva er spesielt med symmetriske matriser ?
7 2
Eksempel. Betrakt den symmetriske matrisen A =
.
2 4
Utregning gir at egenverdiene til A er 3 og 8, og at egenrommene
til A er gitt ved
2 / 23
n 1 o
4 2
= Nul(A − 3 I ) = Nul
= Span
,
2 1
−2
n 2 o
−1
2
E8A = Nul(A − 8 I ) = Nul
= Span
.
2 −4
1
E3A
Legg merke til at egenrommene til A er ortogonale på hverandre:
La v1 = (1, −2), v2 = (2, 1), som utspenner hvert sitt egenrom.
Da er v1 · v2 = 0, så disse er ortogonale på hverandre.
Ved å normalisere v1 og v2 får vi vektorene
1
1
1
2
u1 = √
, u2 = √
,
−2
5
5 1
som danner en ortonormal basis for R2 med egenvektorer for A.
Matrisen P = [u1 u2 ] er dermed ortogonal (P −1 = P T ), og slik at
3 0
3 0
A=P
P −1 = P
PT
0 8
0 8
Vi skal se at dette er typisk for symmetriske matriser.
3 / 23
En viktig egenskap til en symmetrisk matrise er at dens egenrom er
ortogonale på hverandre:
Teorem 1. La A være en symmetrisk matrise, og la u1 , u2 være
egenvektorer for A som tilhører to forskjellige egenverdier.
Da er u1 ortogonal på u2 .
En annen viktig egenskap er: En symmetrisk matrise har bare
reelle egenverdier.
Definisjon. A ∈ Mn (R) kalles ortogonalt diagonaliserbar
dersom det fins en n × n ortogonal matrise P (så P −1 = P T )
og en n × n diagonal matrise D slik at
A = P D P T = P D P −1
Merk at da er A diagonaliserbar i vanlig forstand. Videre er
AT = (P D P T )T = (P T )T D T P T = P D P T = A .
En ortogonalt diagonaliserbar matrise er altså symmetrisk. Den
omvendte påstanden er også riktig.
4 / 23
Teorem 2. La A være en kvadratisk matrise. Da er A ortogonalt
diagonaliserbar hvis og bare hvis A er symmetrisk.
Ortogonal diagonalisering i praksis (når vi regner for hånd.): La A
være en symmetrisk n × n matrise. Vi skal konstruere
P = [u1 . . . un ] ortogonal og D = diag(λ1 , . . . , λn ) slik at
A = P D P T = P D P −1 .
Her må λ1 , . . . , λn ∈ R være egenverdiene til A og P’s kolonner
må danne en ortonormal basis for Rn bestående av de tilhørende
egenvektorene. Metoden er:
I
I
I
I
Bestem egenverdiene til A.
For hver av egenverdiene: bestem en basis for det tilh. egenrommet og utfør Gram-Schmidt prosessen med normalisering.
Dann mengden B som består av alle de ortonormale basisene
konstruert ovenfor.
Matrisen P har vektorene fra B som sine kolonner. Matrisen
D er diagonalmatrisen med de tilhørende egenverdiene til A i
tilsvarende rekkefølge.
5 / 23


1 −2 2
1 2 .
Eksempel. La A =  −2
2
2 1
Vi finner da at egenverdiene til A er ±3. Finner tilhørende
egenvektorer (1, 0, 1) og (0, 1, 1) for egenverdi 3, og bruker
Gram-Schmidt prosessen på disse. For egenverdi −3 finner vi
egenvektor (−1, −1, 1) 
som vi
 normaliserer.




1
−1
−1 o
n
Resultatet er B = √12  0  , √16  2  , √13  −1 
1
1
1
3
som er en o. n. b. for R av egenvektorer for A.
 1 −1 −1 
√
2

P= 0
√1
2
√
6
√2
6
√1
6
√
3
−1
√
3
√1
3

 er da ortogonal, og slik at
A = P diag(3, 3, −3) P T .
6 / 23
Mengden av alle egenverdier til en kvadratisk matrise A kalles ofte
spektret til A. Neste teorem oppsummerer de “spektrale”
egenskapene til symmetriske matriser.
Teorem 3 – Spektralteoremet for symmetriske matriser.
La A være en n × n symmetrisk matrise. Da gjelder følgende:
a) A har n reelle egenverdier når vi teller med multiplisiteten.
b) Dimensjonen til hvert av egenrommene til A er lik
multiplisiteten til den tilhørende egenverdien,
c) Egenrommene står ortogonalt på hverandre.
d) A er ortogonalt diagonaliserbar.
7 / 23
Spektral dekomposisjonen til en symmetrisk matrise.
Betrakt en n × n symmetrisk matrise A. Velg P = [u1 . . . un ]
ortogonal og D = diag(λ1 , . . . , λn ) slik at A = P D P T . Da er


λ1 0 · · · · · · 0  
 0 λ2 0 · · · 0  uT

  1T 
 ..
 u2 
.
.. ..
.
. .. 
0
A = [u1 u2 . . . un ] 
. 
.

 ..
  .. 
.. . . . .
.
.
. 0  uT
.
n
0 0 · · · 0 λn
 T
u1
uT 
 2
= [λ1 u1 λ2 u2 . . . λn un ]  . 
 .. 
uT
n
T
T
= λ1 u1 uT
1 + λ2 u2 u2 + · · · + λn un un
(bruker kolonne-rad formelen for matriseproduktet i siste likhet).
8 / 23
Dette kan skrives som
A = λ1 P1 + λ2 P2 + · · · + λn Pn
der Pj = uj uT
j ,
j = 1, . . . n.
Dette kalles kalles en spektral dekomposisjon av A.
Sett Wj = Span {uj }. Ved Teorem 10 i Kap. 6 er
ProjWj (x) = uj uT
j x
for alle x ∈ Rn .
Matrisen Pj = uj uT
j er altså standardmatrisen til ProjWj .
Hver Pj har rang 1 siden Col Pj = Wj er 1-dimensjonalt,
og tilfredstiller at
Pj2 = Pj = PjT .
9 / 23
7.1 forts. Schur triangularisering og spektralteoremet
I
Vi skal se på to svært sentrale resultat i lineær algebra.
I
Spektralteoremet (Teorem 3 i Lay): dette sier bl.a. at reelle
symmetriske matriser er ortogonalt diagonaliserbare, og
I
Schur triangularisering: tilleggsstoff (noe kjennskap).
I
Vi fokuserer på det reelle tilfellet (det finnes en kompleks
variant)
Minner om at to kvadratiske matriser A og B kalles similære
dersom det finnes en invertibel matrise S slik at
B = S −1 AS.
Da har A og B samme egenverdier. Spesielt enkelt er dette hvis S
er en ortogonal matrise (dvs. S er n × n og kolonnene er
ortonormale); da er nemlig S −1 = S T !!
10 / 23
Teorem ( Schur triangulering) Anta at A er en n × n matrise med
reelle egenverdier λ1 , λ2 , . . . , λn (telles med multipl., i en viss
rekkefølge). Da finnes en (reell) ortogonal matrise U slik at
U T AU = T
er øvre triangulær, og der diagonalelementene i T er egenverdiene
til A, tii = λi (i ≤ n).
Merk: U T er den transponerte av U. T er en matrise.
Schur triangularisering har en rekke anvendelser. Vi skal her bruke
dette resultatet til å vise spektralteoremet.
11 / 23
Teorem ( Spektralteoremet) La A være en reell symmetrisk n × n
matrise. Da har A reelle egenverdier λ1 , λ2 , . . . , λn (telles med
multipl., i en viss rekkefølge) og det finnes en (reell) ortogonal
matrise U slik at
U T AU = D
der D er diagonalmatrisen med diagonalelementer λ1 , λ2 , . . . , λn .
Kolonnene i U er n ortonormale egenvektorer som hører til de
resp. egenverdiene.
Bevis (skisse): Først kan man bruke at A er symmetrisk til å vise
at A har relle egenverdier og dermed reelle egenvektorer. Ved
Schur triangulering finnes da en ortogonal matrise U slik at
U T AU = T
der T er øvre triangulær. Men A symmetrisk som medfører at T
er symmetrisk, og T er derfor en diagonalmatrise.
12 / 23
7.2 Kvadratiske former
I
Funksjoner på Rn som er lineærkombinasjoner av ledd av
typen xi2 eller xi xj (der i 6= j) opptrer i mange anvendelser.
Disse kalles kvadratiske former.
I
Kvadratiske former på Rn kan skrives på formen x T A x der A
er en symmetrisk n × n matrise. Ved teorien for symmetriske
matriser kan vi alltid foreta et ortogonalt variabelskifte som
forenkler en gitt kvadratisk form.
I
Et variabelskifte svarer til et bytte av koordinatsystem.
”Nivåmengder” for en kvadratisk form er enkle å beskrive når
man velger ”riktig” koordinatsystem. Når n = 2 er
nivåkurvene man da får gjerne ellipser eller hyperbler.
I
Skal se til slutt at kvadratiske former (og symmetriske
matriser) kan klassifiseres i noen hovedtyper. Disse typene er
viktige f.eks. når man studerer stasjonære punkter til reelle
funksjoner på Rn (ved å se på Hesse-matrisene, jf. MAT1110).
13 / 23
Definition. En kvadratisk form på Rn er en funksjon Q : Rn → R
som kan skrives på formen
Q(x) = x T A x der A er en symmetrisk n × n matrise.
5 −2
Eksempel. La A =
og Q(x) = x T A x. Da er
−2
5
5 −2
x1
5x1 −2x2
Q(x) = x1 x2
= x1 x2
−2
5
x2
−2x1 + 5x2
= x1 (5x1 −2x2 ) + x2 (−2x1 + 5x2 ) = 5x12 −4x1 x2 + 5x22 .
Eksempel. La
Q(x) = a x12 +b x1 x2 +c x22 +d x2 x3 +e x32 +f x1 x3 , x = (x1 , x2 , x3 ) ∈ R3 .
Da er

Q(x) =
x1 x2 x3


a b/2 f /2
x1
 b/2
c d/2   x2  .
f /2 d/2
e
x3
14 / 23
Kvadratiske former tilordnet diagonalmatriser er ”enkle” :
La D= diag(d1 , d2 , . . . , dn ) og Q 0 (y ) = y T D y , y ∈ Rn . Da er
Q 0 (y ) = d1 y12 + d2 y22 + . . . + dn yn2
Med ”enkel” menes altså at det finnes ingen kryssledd av typen
yi yj med i 6= j.
Vi skal nå se at vi kan alltid gjøre om en kvadratisk form til en
”enkel” kvadratisk form uten kryssledd ved et passende
variabelskifte.
Husk at et variabelskifte svarer til at vi skifter basis (og dermed
koordinatsystem): hvis P = [u1 . . . un ] er en n × n invertibel
matrise og vi foretar variabelskiftet
y = P −1 x, mao. x = Py
så er y koordinatvektoren til x mhp. basisen B = {u1 . . . un }
(fordi P −1 er koordinatskiftematrisen fra standard basisen til B, jf.
avsn. 4.4 og 4.7).
15 / 23
Betrakt en kvadratisk form på Rn
Q(x) = x T A x
der A er en symmetrisk n × n matrise.
Siden A er symmetrisk vet vi fra avsn. 7.1 at A er ortogonalt
diagonaliserbar: det finnes da en ortogonal n × n matrise P og en
n × n diagonalmatrise D = diag(d1 , . . . , dn ) slik at
A = PDP −1 = PDP T (siden P −1 = P T ), og da er P T AP = D.
Minner om at kolonnene i P er da en ortonormal basis B for Rn
bestående av egenvektorer for A tilhørende egenverdiene d1 , . . . , dn .
Vi foretar nå variableskiftet y = P −1 x, mao. x = Py .
Vi får da at
Q(x) = x T A x = (Py )T A(Py ) = y T P T APy = y T Dy .
Nå er Q 0 (y ) := y T D y en kvadratisk form uten kryssledd!
16 / 23
Vi har dermed vist følgende:
Teorem 4. I koordinatsystemet for Rn med akser bestemt av en
ortonormal egenvektorbasis B for den symmetriske matrisen A, så
blir den kvadratiske formen Q(x) = x T Ax gjort om til en
kvadratisk form uten kryssledd.
Aksene i koordinatsystemet ovenfor kalles ofte hovedaksene (eller
prinsipalaksene).
5 −2
Eksempel. La A =
og Q(x) = x T A x.
−2
5
Vi finner at egenverdiene til A
er 3 og 7, medtilhørende
1
−1
1
1
, u2 = √2
.
enhetsegenvektorer u1 = √2
1
1
" 1 −1 #
√
Sett P =
2
√1
2
√
2
√1
2
og D = diag(3, 7).
Variabelskiftet x = Py gir da at
Q(x) = x T A x = y T Dy = 3y12 + 7y22 (= Q 0 (y )).
17 / 23
En geometrisk anvendelse
For enkelhets skyld ser vi på når n = 2.
Betrakt en kvadratisk form på R2 , Q(x) = a x12 + b x1 x2 + c x22 .
Hvordan ser nivåkurvene til Q ut ?
Minner om at nivåkurven til Q svarende til en verdi d ∈ R består
av alle x = (x1 , x2 ) i R2 som er slik at Q(x) = d, mao. som
tilfredstiller likningen
a x12 + b x1 x2 + c x22 = d
Vi kan da skifte variabel og gå over til koordinatsystemet angitt i
Teorem 4. Likningen ovenfor forenkles da til likningen
d1 y12 + d2 y22 = d
der d1 og d2 er egenverdiene til den symmetriske matrisen A
tilordnet Q. Kurvene bestemt av denne likningen, og dermed
nivåkurvene til Q, lar seg lett beskrive.
18 / 23
Anta f.eks. at d1 , d2 og d alle er forskjellig fra 0. Da har vi at
I
hvis d1 , d2 (og d) alle har samme fortegn så blir kurven en
ellipse
I
hvis d1 , d2 har motsatt fortegn så blir kurven en hyperbel.
Eksempel. Betrakt likningen 5 x12 − 4 x1 x2 + 5 x22 = 48, mao.
5 −2
T
Q(x) = 48 der Q(x) = x A x med A =
.
−2
5
I koordinatsystemet bestemt av egenvektorbasisen for A vi fant da,
blir likningen omgjort til 3 y12 + 7 y22 = 48, altså til
y12
y2
+ p 2
=1
2
4
( 48/7 )2
som er likningen for en ellipse (se fig. 3(a) s. 476).
19 / 23
Eksempel. Betrakt likningen 3 x12 + 10 x1 x2 + 3 x22 = 2, mao.
3 5
T
Q(x) = 2 der Q(x) = x A x med A =
,
5 3
Man regner lett ut at egenverdiene
tilhørende
til A er 8 og
-2, med
1
−1
, u2 = √12
.
enhetsegenvektorer u1 = √12
1
1
" 1 −1 #
√
Sett P =
2
√1
2
√
2
√1
2
.
Variabelskiftet x = Py gjør da likningen Q(x) = 2 om til likningen
8 y12 − 2 y22 = 2, dvs.
y12
− y22 = 1.
(1/2)2
Dette er likningen for en hyperbel.
20 / 23
Klassifikasjon av kvadratiske former
Motivasjon. La Q(x) = x T Ax være en kvadratisk form på R2 .
Det er enkelt å sjekke at O = (0, 0) er et stasjonært punkt for Q,
dvs.
∂Q
∂Q
∂x1 (0, 0) = ∂x2 (0, 0) = 0.
Et naturlig spørsmål er derfor: hva slags stasjonært punkt er O ?
Merk at Q(O) = 0.
Definition. En kvadratisk form Q på Rn kalles
I
positiv definit dersom Q(x) > 0 for alle x 6= O. (Da er O et
min. punkt for Q).
I
negativ definit dersom Q(x) < 0 for alle x 6= O. (Da er O et
maks. punkt for Q).
I
indefinit dersom Q(x) antar både positive og negative verdier.
(Da vil O være et sadelpunkt for Q).
21 / 23
Merk : man sier også at Q er
I
positiv semidefinit dersom Q(x) ≥ 0 for alle x,
I
negativ semidefinit dersom Q(x) ≤ 0 for alle x.
Teorem 5 – Kvadratiske former og egenverdier.
La A være en n × n symmetrisk matrise. Den kvadratiske formen
Q(x) = x T Ax på Rn er
I
positiv definit ⇔ alle egenverdiene til A er positive,
I
negativ definit ⇔ alle egenverdiene til A er negative,
I
indefinit ⇔ A har både positive og negative egenverdier.
Merk : tilsvarende gjelder det at Q er
I
positiv semidefinit ⇔ alle egenverdiene til A er ikkenegative,
I
negativ semidefinit ⇔ alle egenverdiene til A ikkepositive,
22 / 23
Bevis-skisse. Ved å benytte Teorem 4 kan vi betrakte istedet
Q 0 (y ) = d1 y12 + · · · + dn yn2 der d1 , . . . , dn er egenverdilisten til A.
Ved å studere fortegnet til dette uttrykket er det rimelig opplagt at
påstandene i teoremet er sanne.
Eksempel. La Q(x) = 5 x12 − 4 x1 x2 + 5 x22 .
5 −2
Siden A =
har egenverdiene 3 og 7, som begge er
−2
5
positive, så er Q positiv definit. (Dermed er (0, 0) et min. punkt
for Q).
Merk: Samme terminologi brukes til å klassifisere symmetriske
matriser som kvadratiske former: en symmetrisk matrise A kalles
positiv definit dersom den tilhørende kvadratiske formen er positiv
definit, osv. Teorem 5 har da en tilsvarende formulering for
symmetriske matriser.
5 −2
F.eks. er A =
positiv definit (jf. tidl. eksempel).
−2
5
23 / 23