Download Report

Kap. 7 Symmetriske matriser og kvadratiske former
Vi skal koble diagonalisering av matriser sammen med
ortogonalitet. Skal bl.a. se på symmetriske matriser som har
uvanlig pene egenskaper mht. diagonalisering. Knyttet til
symmetriske matriser har vi kvadratiske former og vi skal studere
visse optimeringsproblemer for disse. Til slutt ser vi på
singulærverdi dekomposisjonen til en matrise. Den er nyttig i
mange anvendelser.
7.1 Symmetriske matriser
I
I
I
Vi skal se at alle symmetriske matriser er diagonaliserbare, og
har spesielle “spektrale” egenskaper.
Singulærverdi dekomposisjonen til en (rektangulær) matrise A
(avsnitt 7.4), henger nøye sammen med diagonaliseringen av
den symmetriske matrisen AT A.
For komplekse matriser er det analoge til symmetrisk det som
kalles ”selv-adjungerte” (eller “Hermitiske”) matriser. Disse
spiller en fremtrende rolle i fysikk (spesielt i kvantemekanikk).
1 / 23
Definisjon. En n × n (reell) matrise A kalles symmetrisk dersom
AT = A . Hvis A = [aij ], så er A symmetrisk hvis og bare hvis
aij = aji for alle i, j.


a b c
F.eks. er matrisen A =  b d e  er symmetrisk.
c e f
Alle diagonalmatriser er symmetriske.
Hvis A ∈ Mn (R), så er B = A + AT symmetrisk. Og hvis
A ∈ Mm×n (R), så er C = AT A symmetrisk.
Hva er spesielt med symmetriske matriser ?
7 2
Eksempel. Betrakt den symmetriske matrisen A =
.
2 4
Utregning gir at egenverdiene til A er 3 og 8, og at egenrommene
til A er gitt ved
2 / 23
n 1 o
4 2
= Nul(A − 3 I ) = Nul
= Span
,
2 1
−2
n 2 o
−1
2
E8A = Nul(A − 8 I ) = Nul
= Span
.
2 −4
1
E3A
Legg merke til at egenrommene til A er ortogonale på hverandre:
La v1 = (1, −2), v2 = (2, 1), som utspenner hvert sitt egenrom.
Da er v1 · v2 = 0, så disse er ortogonale på hverandre.
Ved å normalisere v1 og v2 får vi vektorene
1
1
1
2
u1 = √
, u2 = √
,
−2
5
5 1
som danner en ortonormal basis for R2 med egenvektorer for A.
Matrisen P = [u1 u2 ] er dermed ortogonal (P −1 = P T ), og slik at
3 0
3 0
A=P
P −1 = P
PT
0 8
0 8
Vi skal se at dette er typisk for symmetriske matriser.
3 / 23
En viktig egenskap til en symmetrisk matrise er at dens egenrom er
ortogonale på hverandre:
Teorem 1. La A være en symmetrisk matrise, og la u1 , u2 være
egenvektorer for A som tilhører to forskjellige egenverdier.
Da er u1 ortogonal på u2 .
En annen viktig egenskap er: En symmetrisk matrise har bare
reelle egenverdier.
Definisjon. A ∈ Mn (R) kalles ortogonalt diagonaliserbar
dersom det fins en n × n ortogonal matrise P (så P −1 = P T )
og en n × n diagonal matrise D slik at
A = P D P T = P D P −1
Merk at da er A diagonaliserbar i vanlig forstand. Videre er
AT = (P D P T )T = (P T )T D T P T = P D P T = A .
En ortogonalt diagonaliserbar matrise er altså symmetrisk. Den
omvendte påstanden er også riktig.
4 / 23
Teorem 2. La A være en kvadratisk matrise. Da er A ortogonalt
diagonaliserbar hvis og bare hvis A er symmetrisk.
Ortogonal diagonalisering i praksis (når vi regner for hånd.): La A
være en symmetrisk n × n matrise. Vi skal konstruere
P = [u1 . . . un ] ortogonal og D = diag(λ1 , . . . , λn ) slik at
A = P D P T = P D P −1 .
Her må λ1 , . . . , λn ∈ R være egenverdiene til A og P’s kolonner
må danne en ortonormal basis for Rn bestående av de tilhørende
egenvektorene. Metoden er:
I
I
I
I
Bestem egenverdiene til A.
For hver av egenverdiene: bestem en basis for det tilh. egenrommet og utfør Gram-Schmidt prosessen med normalisering.
Dann mengden B som består av alle de ortonormale basisene
konstruert ovenfor.
Matrisen P har vektorene fra B som sine kolonner. Matrisen
D er diagonalmatrisen med de tilhørende egenverdiene til A i
tilsvarende rekkefølge.
5 / 23


1 −2 2
1 2 .
Eksempel. La A =  −2
2
2 1
Vi finner da at egenverdiene til A er ±3. Finner tilhørende
egenvektorer (1, 0, 1) og (0, 1, 1) for egenverdi 3, og bruker
Gram-Schmidt prosessen på disse. For egenverdi −3 finner vi
egenvektor (−1, −1, 1) 
som vi
 normaliserer.




1
−1
−1 o
n
Resultatet er B = √12  0  , √16  2  , √13  −1 
1
1
1
3
som er en o. n. b. for R av egenvektorer for A.
 1 −1 −1 
√
2

P= 0
√1
2
√
6
√2
6
√1
6
√
3
−1
√
3
√1
3

 er da ortogonal, og slik at
A = P diag(3, 3, −3) P T .
6 / 23
Mengden av alle egenverdier til en kvadratisk matrise A kalles ofte
spektret til A. Neste teorem oppsummerer de “spektrale”
egenskapene til symmetriske matriser.
Teorem 3 – Spektralteoremet for symmetriske matriser.
La A være en n × n symmetrisk matrise. Da gjelder følgende:
a) A har n reelle egenverdier når vi teller med multiplisiteten.
b) Dimensjonen til hvert av egenrommene til A er lik
multiplisiteten til den tilhørende egenverdien,
c) Egenrommene står ortogonalt på hverandre.
d) A er ortogonalt diagonaliserbar.
7 / 23
Spektral dekomposisjonen til en symmetrisk matrise.
Betrakt en n × n symmetrisk matrise A. Velg P = [u1 . . . un ]
ortogonal og D = diag(λ1 , . . . , λn ) slik at A = P D P T . Da er


λ1 0 · · · · · · 0  
 0 λ2 0 · · · 0  uT

  1T 
 ..
 u2 
.
.. ..
.
. .. 
0
A = [u1 u2 . . . un ] 
. 
.

 ..
  .. 
.. . . . .
.
.
. 0  uT
.
n
0 0 · · · 0 λn
 T
u1
uT 
 2
= [λ1 u1 λ2 u2 . . . λn un ]  . 
 .. 
uT
n
T
T
= λ1 u1 uT
1 + λ2 u2 u2 + · · · + λn un un
(bruker kolonne-rad formelen for matriseproduktet i siste likhet).
8 / 23
Dette kan skrives som
A = λ1 P1 + λ2 P2 + · · · + λn Pn
der Pj = uj uT
j ,
j = 1, . . . n.
Dette kalles kalles en spektral dekomposisjon av A.
Sett Wj = Span {uj }. Ved Teorem 10 i Kap. 6 er
ProjWj (x) = uj uT
j x
for alle x ∈ Rn .
Matrisen Pj = uj uT
j er altså standardmatrisen til ProjWj .
Hver Pj har rang 1 siden Col Pj = Wj er 1-dimensjonalt,
og tilfredstiller at
Pj2 = Pj = PjT .
9 / 23
7.1 forts. Schur triangularisering og spektralteoremet
I
Vi skal se på to svært sentrale resultat i lineær algebra.
I
Spektralteoremet (Teorem 3 i Lay): dette sier bl.a. at reelle
symmetriske matriser er ortogonalt diagonaliserbare, og
I
Schur triangularisering: tilleggsstoff (noe kjennskap).
I
Vi fokuserer på det reelle tilfellet (det finnes en kompleks
variant)
Minner om at to kvadratiske matriser A og B kalles similære
dersom det finnes en invertibel matrise S slik at
B = S −1 AS.
Da har A og B samme egenverdier. Spesielt enkelt er dette hvis S
er en ortogonal matrise (dvs. S er n × n og kolonnene er
ortonormale); da er nemlig S −1 = S T !!
10 / 23
Teorem ( Schur triangulering) Anta at A er en n × n matrise med
reelle egenverdier λ1 , λ2 , . . . , λn (telles med multipl., i en viss
rekkefølge). Da finnes en (reell) ortogonal matrise U slik at
U T AU = T
er øvre triangulær, og der diagonalelementene i T er egenverdiene
til A, tii = λi (i ≤ n).
Merk: U T er den transponerte av U. T er en matrise.
Schur triangularisering har en rekke anvendelser. Vi skal her bruke
dette resultatet til å vise spektralteoremet.
11 / 23
Teorem ( Spektralteoremet) La A være en reell symmetrisk n × n
matrise. Da har A reelle egenverdier λ1 , λ2 , . . . , λn (telles med
multipl., i en viss rekkefølge) og det finnes en (reell) ortogonal
matrise U slik at
U T AU = D
der D er diagonalmatrisen med diagonalelementer λ1 , λ2 , . . . , λn .
Kolonnene i U er n ortonormale egenvektorer som hører til de
resp. egenverdiene.
Bevis (skisse): Først kan man bruke at A er symmetrisk til å vise
at A har relle egenverdier og dermed reelle egenvektorer. Ved
Schur triangulering finnes da en ortogonal matrise U slik at
U T AU = T
der T er øvre triangulær. Men A symmetrisk som medfører at T
er symmetrisk, og T er derfor en diagonalmatrise.
12 / 23
7.2 Kvadratiske former
I
Funksjoner på Rn som er lineærkombinasjoner av ledd av
typen xi2 eller xi xj (der i 6= j) opptrer i mange anvendelser.
Disse kalles kvadratiske former.
I
Kvadratiske former på Rn kan skrives på formen x T A x der A
er en symmetrisk n × n matrise. Ved teorien for symmetriske
matriser kan vi alltid foreta et ortogonalt variabelskifte som
forenkler en gitt kvadratisk form.
I
Et variabelskifte svarer til et bytte av koordinatsystem.
”Nivåmengder” for en kvadratisk form er enkle å beskrive når
man velger ”riktig” koordinatsystem. Når n = 2 er
nivåkurvene man da får gjerne ellipser eller hyperbler.
I
Skal se til slutt at kvadratiske former (og symmetriske
matriser) kan klassifiseres i noen hovedtyper. Disse typene er
viktige f.eks. når man studerer stasjonære punkter til reelle
funksjoner på Rn (ved å se på Hesse-matrisene, jf. MAT1110).
13 / 23
Definition. En kvadratisk form på Rn er en funksjon Q : Rn → R
som kan skrives på formen
Q(x) = x T A x der A er en symmetrisk n × n matrise.
5 −2
Eksempel. La A =
og Q(x) = x T A x. Da er
−2
5
5 −2
x1
5x1 −2x2
Q(x) = x1 x2
= x1 x2
−2
5
x2
−2x1 + 5x2
= x1 (5x1 −2x2 ) + x2 (−2x1 + 5x2 ) = 5x12 −4x1 x2 + 5x22 .
Eksempel. La
Q(x) = a x12 +b x1 x2 +c x22 +d x2 x3 +e x32 +f x1 x3 , x = (x1 , x2 , x3 ) ∈ R3 .
Da er

Q(x) =
x1 x2 x3


a b/2 f /2
x1
 b/2
c d/2   x2  .
f /2 d/2
e
x3
14 / 23
Kvadratiske former tilordnet diagonalmatriser er ”enkle” :
La D= diag(d1 , d2 , . . . , dn ) og Q 0 (y ) = y T D y , y ∈ Rn . Da er
Q 0 (y ) = d1 y12 + d2 y22 + . . . + dn yn2
Med ”enkel” menes altså at det finnes ingen kryssledd av typen
yi yj med i 6= j.
Vi skal nå se at vi kan alltid gjøre om en kvadratisk form til en
”enkel” kvadratisk form uten kryssledd ved et passende
variabelskifte.
Husk at et variabelskifte svarer til at vi skifter basis (og dermed
koordinatsystem): hvis P = [u1 . . . un ] er en n × n invertibel
matrise og vi foretar variabelskiftet
y = P −1 x, mao. x = Py
så er y koordinatvektoren til x mhp. basisen B = {u1 . . . un }
(fordi P −1 er koordinatskiftematrisen fra standard basisen til B, jf.
avsn. 4.4 og 4.7).
15 / 23
Betrakt en kvadratisk form på Rn
Q(x) = x T A x
der A er en symmetrisk n × n matrise.
Siden A er symmetrisk vet vi fra avsn. 7.1 at A er ortogonalt
diagonaliserbar: det finnes da en ortogonal n × n matrise P og en
n × n diagonalmatrise D = diag(d1 , . . . , dn ) slik at
A = PDP −1 = PDP T (siden P −1 = P T ), og da er P T AP = D.
Minner om at kolonnene i P er da en ortonormal basis B for Rn
bestående av egenvektorer for A tilhørende egenverdiene d1 , . . . , dn .
Vi foretar nå variableskiftet y = P −1 x, mao. x = Py .
Vi får da at
Q(x) = x T A x = (Py )T A(Py ) = y T P T APy = y T Dy .
Nå er Q 0 (y ) := y T D y en kvadratisk form uten kryssledd!
16 / 23
Vi har dermed vist følgende:
Teorem 4. I koordinatsystemet for Rn med akser bestemt av en
ortonormal egenvektorbasis B for den symmetriske matrisen A, så
blir den kvadratiske formen Q(x) = x T Ax gjort om til en
kvadratisk form uten kryssledd.
Aksene i koordinatsystemet ovenfor kalles ofte hovedaksene (eller
prinsipalaksene).
5 −2
Eksempel. La A =
og Q(x) = x T A x.
−2
5
Vi finner at egenverdiene til A
er 3 og 7, medtilhørende
1
−1
1
1
, u2 = √2
.
enhetsegenvektorer u1 = √2
1
1
" 1 −1 #
√
Sett P =
2
√1
2
√
2
√1
2
og D = diag(3, 7).
Variabelskiftet x = Py gir da at
Q(x) = x T A x = y T Dy = 3y12 + 7y22 (= Q 0 (y )).
17 / 23
En geometrisk anvendelse
For enkelhets skyld ser vi på når n = 2.
Betrakt en kvadratisk form på R2 , Q(x) = a x12 + b x1 x2 + c x22 .
Hvordan ser nivåkurvene til Q ut ?
Minner om at nivåkurven til Q svarende til en verdi d ∈ R består
av alle x = (x1 , x2 ) i R2 som er slik at Q(x) = d, mao. som
tilfredstiller likningen
a x12 + b x1 x2 + c x22 = d
Vi kan da skifte variabel og gå over til koordinatsystemet angitt i
Teorem 4. Likningen ovenfor forenkles da til likningen
d1 y12 + d2 y22 = d
der d1 og d2 er egenverdiene til den symmetriske matrisen A
tilordnet Q. Kurvene bestemt av denne likningen, og dermed
nivåkurvene til Q, lar seg lett beskrive.
18 / 23
Anta f.eks. at d1 , d2 og d alle er forskjellig fra 0. Da har vi at
I
hvis d1 , d2 (og d) alle har samme fortegn så blir kurven en
ellipse
I
hvis d1 , d2 har motsatt fortegn så blir kurven en hyperbel.
Eksempel. Betrakt likningen 5 x12 − 4 x1 x2 + 5 x22 = 48, mao.
5 −2
T
Q(x) = 48 der Q(x) = x A x med A =
.
−2
5
I koordinatsystemet bestemt av egenvektorbasisen for A vi fant da,
blir likningen omgjort til 3 y12 + 7 y22 = 48, altså til
y12
y2
+ p 2
=1
2
4
( 48/7 )2
som er likningen for en ellipse (se fig. 3(a) s. 476).
19 / 23
Eksempel. Betrakt likningen 3 x12 + 10 x1 x2 + 3 x22 = 2, mao.
3 5
T
Q(x) = 2 der Q(x) = x A x med A =
,
5 3
Man regner lett ut at egenverdiene
tilhørende
til A er 8 og
-2, med
1
−1
, u2 = √12
.
enhetsegenvektorer u1 = √12
1
1
" 1 −1 #
√
Sett P =
2
√1
2
√
2
√1
2
.
Variabelskiftet x = Py gjør da likningen Q(x) = 2 om til likningen
8 y12 − 2 y22 = 2, dvs.
y12
− y22 = 1.
(1/2)2
Dette er likningen for en hyperbel.
20 / 23
Klassifikasjon av kvadratiske former
Motivasjon. La Q(x) = x T Ax være en kvadratisk form på R2 .
Det er enkelt å sjekke at O = (0, 0) er et stasjonært punkt for Q,
dvs.
∂Q
∂Q
∂x1 (0, 0) = ∂x2 (0, 0) = 0.
Et naturlig spørsmål er derfor: hva slags stasjonært punkt er O ?
Merk at Q(O) = 0.
Definition. En kvadratisk form Q på Rn kalles
I
positiv definit dersom Q(x) > 0 for alle x 6= O. (Da er O et
min. punkt for Q).
I
negativ definit dersom Q(x) < 0 for alle x 6= O. (Da er O et
maks. punkt for Q).
I
indefinit dersom Q(x) antar både positive og negative verdier.
(Da vil O være et sadelpunkt for Q).
21 / 23
Merk : man sier også at Q er
I
positiv semidefinit dersom Q(x) ≥ 0 for alle x,
I
negativ semidefinit dersom Q(x) ≤ 0 for alle x.
Teorem 5 – Kvadratiske former og egenverdier.
La A være en n × n symmetrisk matrise. Den kvadratiske formen
Q(x) = x T Ax på Rn er
I
positiv definit ⇔ alle egenverdiene til A er positive,
I
negativ definit ⇔ alle egenverdiene til A er negative,
I
indefinit ⇔ A har både positive og negative egenverdier.
Merk : tilsvarende gjelder det at Q er
I
positiv semidefinit ⇔ alle egenverdiene til A er ikkenegative,
I
negativ semidefinit ⇔ alle egenverdiene til A ikkepositive,
22 / 23
Bevis-skisse. Ved å benytte Teorem 4 kan vi betrakte istedet
Q 0 (y ) = d1 y12 + · · · + dn yn2 der d1 , . . . , dn er egenverdilisten til A.
Ved å studere fortegnet til dette uttrykket er det rimelig opplagt at
påstandene i teoremet er sanne.
Eksempel. La Q(x) = 5 x12 − 4 x1 x2 + 5 x22 .
5 −2
Siden A =
har egenverdiene 3 og 7, som begge er
−2
5
positive, så er Q positiv definit. (Dermed er (0, 0) et min. punkt
for Q).
Merk: Samme terminologi brukes til å klassifisere symmetriske
matriser som kvadratiske former: en symmetrisk matrise A kalles
positiv definit dersom den tilhørende kvadratiske formen er positiv
definit, osv. Teorem 5 har da en tilsvarende formulering for
symmetriske matriser.
5 −2
F.eks. er A =
positiv definit (jf. tidl. eksempel).
−2
5
23 / 23