Föreläsningsanteckningar

Teknisk Beräkningsvetenskap I
Tema 3: Styvhetsmodellering av mjuk mark med
icke-linjära ekvationer
Eddie Wadbro
18 november, 2015
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(1 : 37)
Innehåll
I
Icke-linjära ekvationer och system
I
Anonyma funktioner Matlab
I
Konvergenshastighet
I
Newtons metod
I
Fixpunktsiteration
I
Minstakvadratproblem
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(2 : 37)
Icke-linjära ekvationer
I
Många beräkningsproblem är till sin natur icke-linjära
I
Ex.: Eulers ekvationer i gasdynamiken (det aerodynamiska problem
som diskuterades i inledningen av första föreläsningen) blir, efter
diskretisering, ett mycket stort system av icke-linjära ekvationer som
beskriver tryck, densitet och hastigheter i noderna
I
Linjära ekvationssystem kan i princip lösas för hand. För stora
problem behövs datorer
I
Icke-linjära ekvationer kan sällan lösas exakt för hand. Det finns
ingen “formel” för lösningen i allmänhet. Det behövs numeriska
metoder även i det skalära fallet.
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(3 : 37)
Icke-linjära system, exempel
x2
Exempel, sid. 94 i kursboken:
4x12 + 9x22 − 36 = 0
16x12 − 9x22 − 36 = 0
ska lösas för x1 ≥ 0, x2 ≥ 0
x1
Ovanligt exempel: kan lösas för hand!
Observera att problemet är linjärt i y1 = x12 , y2 = x22
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(4 : 37)
Icke-linjära system
Ett system med n ekvationer och n okända skrivs generellt
f1 (x1 , . . . , xn ) = 0
f2 (x1 , . . . , xn ) = 0
..
.
fn (x1 , . . . , xn ) = 0
System ovan kan skrivas i vektorform som
f(x) = 0,
där
 
x1
 .. 
x=.
 
f1
 .. 
f =.
fn
och
xn
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(5 : 37)
Icke-linjära system
För icke-linjära system så är Jacobimatrisen eller Jacobianen J av
central betydelse.
Jacobianens komponenter är
Jij =
∂fi
∂xj
vilket ger
 ∂f
1
∂x
 ∂f 1
 2
 ∂x1
J= .
 ..

∂fn
∂x1
∂f1
∂x2
∂f2
∂x2
∂fn
∂x2
...
...
...
∂f1
∂xn

∂f2 
∂xn 

∂fn
∂xn



För det inledande exemplet är Jacobianen
8x1
18x2
J=
32x1 −18x2
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(6 : 37)
Linjär kontra icke-linjär
I
Linjära system har entydig lösning om systemmatrisen är inverterbar
I
För icke-linjära ekvationer är det svårt att verifiera om de har en
lösning innan någon beräkning har utförts
I
Icke-linjära system har ofta mer än en lösning
f (x)
2
1
Figuren till vänster illustrerar att
funktionen f (x) = cos(3x)e −x − x
x har tre rötter (lösningar till f (x) = 0)
i intervallet [−2, 2]
0
−1
−2
−2
−1
0
1
2
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(7 : 37)
Icke-linjära ekvationer
Ex.: Lös den icke-linjära ekvationen cos(3x)e −x − x = 0. Denna ekvation
kan inte lösas “analytiskt,” så vi försöker beräkna en numerisk lösning
För att hitta en lösning x med utgånspunkt 0.5 i Matlab kan man skriva
>> format long
>> f = @(x) cos(3*x).*exp(-x)-x
f =
@(x)cos(3*x).*exp(-x)-x
>> x0 = 0.5;
>> fzero(f,x0)
ans =
0.350198594439993
I
I Matlab kan man definiera funktioner antingen i m-filer eller genom
att använda anonyma funktioner som ovan
I
@(x) i ovanstående kod instruerar Matlab att f är en funktion (och
inte ett tal eller en matris) och att x är den oberoende variabeln i
denna funktion
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(8 : 37)
Anonyma funktioner i Matlab
Att skapa en anonym funktion är ett alternativ till att skriva och spara en
m-fil
Syntaxen för att skapa en anonym funktion är
fhandle = @(arglist) expr
Elementen i högerledet är
I
I
I
@ är Matlab operatorn som skapar funktionshandtaget
arglist är en kommaseparerad lista om innehåller inargumenten till
funktionen
expr representerar funktionskroppen, d.v.s., den kod som kommer
att köras när funktionen anropas
Observera. Funktionshandtag ger inte bara tillgång till anonyma funktioner. Genom att
använda en något modifierad syntax kan man skapa ett funktionshandtag till godtyckliga
Matlab funktioner. Ex.:
fhandle = @exp
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(9 : 37)
Anonyma funktioner i Matlab
Anonyma funktioner innehåller vanligen variabler av två olika “sorter”
I
Variabler som specificeras i inargumentlistan
I
Variabler som anges i själva uttrycket. Matlab fångar dessa variables
när funktionen skapas och håller dem konstanta under hela
livslängden för funktionshandtaget
>> a=2;
>> f = @(x) cos(a*x).*exp(-x)-x;
>> f(1)
ans =
-1.153091865674226
>> a=3;
>> f(1)
ans =
-1.153091865674226
>> f = @(x) cos(a*x).*exp(-x)-x;
>> f(1)
ans =
-1.364197886413293
Sätt a till 2
Låt f vara ett funktionshandtag till
cos(ax)e −x − x, med nuvarande a, (a = 2)
evaluera f(1)
ändra a
evaluera f(1)
Låt f vara ett funktionshandtag till
cos(ax)e −x − x, med nuvarande a, (a = 3)
evaluera f(1)
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(10 : 37)
Direkta kontra iterativa metoder
Numeriska metoder för ekvationslösning är antingen direkta eller
iterativa
I
Direkta metoder: den exakta lösningen (upp till avrudningfel) hittas
efter ett fixt (känt i förväg) antal aritmetiska operationer. Ex.:
Gausselimination för att lösa ett system av linjära ekvationer
I
Iterativa metoder: algoritmen producerar en sekvens av
approximationer x1 , x2 , . . . som (förhoppningsvis) närmar sig den
(okända) exakta lösningen x. Behöver avsluta algoritmen när
kxk − xk är tillräckligt liten; vilket introducerar ytterligare fel
I
För att lösa Icke-linjära ekvationer behövs generellt iterativa metoder
I
Iterativa metoder är nödvändiga även för att lösa mycket stora
linjära system, när direkta metoder är alltför tids och minneskrävande
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(11 : 37)
Icke-linjära lösare i Matlab
I
fzero hittar ett nollställe till en kontinuerlig funktion av en variabel
I
Det finns ingen lösare för icke-linjära system i “grund” Matlab
I
fsolve löser icke-linjära ekvationssystem med hjälp av Newtons
metod, den mest använda metoden för att lösa små till medelstora
icke-linjära ekvationssystem. Denna funtion finns i Matlabs
optimization toolbox vilken säljs separat (ingår i universitetets licens
och finns tillgänglig i datasalarna)
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(12 : 37)
Iterativa metoder
Tumregel:
icke-linjära ekvationer eller mycket stora linjära
ekvationssystem ⇒ iterativa metoder
En generell iterativ metod:
Vanligtvis:
x = startgissning
x 0 = startgissning
while stoppkriterium inte mött
while stoppkriterium inte mött
Hitta en riktning p k och
en steglängd αk
x = ny gissning
Sätt x k+1 = x k + αk p k
end
end
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(13 : 37)
Konvergenshastighet
För linjära system så kan vi hitta den entydiga lösningen i ett ändligt
antal steg
Vanligtvis så producerar iterativa metoder enbart approximativa lösningar
⇒ Avsluta när lösningen är tillräckligt bra
Viktigt: Konvergenshastighet
Hur snabbt x k (approximationen vid steg k) närmar sig den exakta
lösningen x ∗
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(14 : 37)
Konvergenshastighet
Definition
∗
Följden {x k }∞
k=1 konvergerar mot x med konvergensordning (Eng.
convergence rate) p och asymptotisk felkonstant (Eng. rate constant)
C < ∞ om x k → x ∗ och
kx k+1 − x ∗ k
lim
=C
k→∞ kx k − x ∗ kp
I
Linjär: p = 1 och 0 < C < 1. Felet multipliceras essentiellt med C
varje iteration
I
Kvadratisk: p = 2. Ungefär en fördubbling av antalet korrekta siffror
varje iteration
I
Superlinjär: p = 1 och C = 0. “Snabbare än linjär”. Inkluderar
kvadratisk konvergens men även“mellanliggande”
konvergensordningar
Observera: definitionen gäller asymptotisk konvergenshastighet
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(15 : 37)
Iterativa metoder: konvergenshastighet
Ex.: Linjär konvergens
Antag att kx 0 − x ∗ k = 0.5 och
kx k+1 − x ∗ k = 0.3kx k − x ∗ k för varje k > 0
100 •
I
x ∗k
0.3n ,
kx n −
= 0.5 ·
alltså,
felet avtar exponentiellt
Fel
I
•
10−1
Då gäller,
Felet blir aldrig noll!
10
−2
10
−3
•
•
•
10−4
•
0
1
2
3
Iteration
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
4
5
(16 : 37)
Iterativa metoder: konvergenshastighet
Ex.: Kvadratisk konvergens
Antag att kx 0 − x ∗ k = 0.5 och
kx k+1 − x ∗ k = kx k − x ∗ k2 för varje k > 0
100 •
10
I
I
n
kx n − x ∗ k = 0.52 , alltså, antalet
korrekta siffror dubbleras i stort
sett varje iteration
Fel
Då gäller,
Felet blir aldrig noll!
•
•
−2
•
10−4
•
10−6
10−8
10−10
•
0
1
2
3
Iteration
4
5
Observera: Värdet på konstanten C spelar inte någon roll i definitionen av
kvadratisk konvergens, medan C < 1 är ett krav i definitionen av linjär
konvergens
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(17 : 37)
Newtons metod för icke-linjära ekvationer
Vi vill lösa ekvationen f (x) = 0 där f är kontinuerligt deriverbar
Vidare, anta att vi är vid iteration k och att vår nuvarande gissning xk
inte löser vårt problem (f (xk ) 6= 0)
Vi vill hitta ett steg sk så att f (xk + sk ) ≈ 0
Genom att Taylor utveckla f kring xk får vi
f (xk + sk ) = f (xk ) + f 0 (xk )sk + O(|sk |2 )
Ide: välj sk = −f (xk )/f 0 (xk ) så att de två första termerna ovan tar ur
varandra. Sätt xk+1 = xk + sk
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(18 : 37)
Newtons metod för en icke-linjär ekvation:
Alternativ tolkning
Taylor utveckling ger
f (xk + sk ) = f (xk ) + f 0 (xk )sk + O(|sk |2 )
Vilket ger att funktionen
fˆ(x) = f (xk ) + f 0 (xk )(x − xk )
approximerar f kring xk
Vi kan lösa den linjära ekvationen fˆ(x) = 0 för att hitta nästa gissning
xk+1
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(19 : 37)
Newtons metod för icke-linjära ekvationer
n ekvationer fi (x) = 0, i = 1, . . . , n, i n okända x = (x1 , . . . , xn )
Vi antar att varje fi är kontinuerligt differentierbar
Antag att vid iteration k så har vi fi (xk ) 6= 0. Vi vill hitta ett steg
(k)
(k)
sk = (s1 , . . . , sn ) så att fi (xk + sk ) ≈ 0 för alla i
Taylor utveckling ger
fi (xk + s) = fi (xk ) +
n
X
∂fi
(xk )sj + . . .
∂xj
j=1
Ide: Välj s så att de två första termerna ovan tar ut varandra för varje i
fi (xk ) +
n
X
∂fi
(k)
(xk )sj = 0,
∂xj
i = 1, . . . , n
j=1
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(20 : 37)
Newtons metod för icke-linjära ekvationer
Grundalgoritmen:
1. Välj en startgissning x0
2. For k = 0, 1, . . .
2.1 Lös det linjära ekvationssystemet
J(x k )s k = −f (x k ),
där J(x k ) är Jacobimatrisen för f evaluerad i punkten x k
2.2 Sätt
x k+1 = x k + s k
Newtons metod omvandlar problemet att lösa ett icke-linjärt system till
problemet att lösa en sekvens av linjära system
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(21 : 37)
Newtons metod för icke-linjära ekvationer
I
Som ovan, låt f : Rn → Rn vara en kontinuerligt differentierbar
funktion
I
Antag att det finns en lösning till det icke-linjära systemet fi (x) = 0.
(f (x ∗ ) = 0 för något x ∗ ∈ Rn )
Sats
Följden x 0 , x 1 , . . . som genereras av Newtons metod konvergerar
kvadratiskt mot x ∗ om
1. J(x ∗ ) är inverterbar och
2. kx 0 − x ∗ k är tillräckligt liten
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(22 : 37)
Egenskaper hos Newtons metod
I
Fördel: Kan konvergera extremt snabbt
I
Begänsningar:
1.
2.
3.
4.
Vi
Vi
Vi
Vi
behöver beräkna Jacobianen varje iteration
behöver lösa ett linjärt ekvationssystem varje iteration
behöver starta tillräckligt nära lösningen
kan få problem om Jacobianen är singular vid någon iteration
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(23 : 37)
Jacobianberäkningar
I
En vanlig situation: funktionsvärdena beräknas med hjälp av någon
kommersiell mjukvara som inte ger tillgång till källkoden. Speciellt är
Jacobianen inte tillgänglig!
I
Jacobianen kan approximeras med finita differenser:
∂fi
(x1 , . . . , xn )
∂xj
fi (x1 , . . . , xj + h, . . . , xn ) − fi (x1 , . . . , xj , . . . , xn )
≈
h
Jij (x1 , . . . , xn ) =
I
h ska inte vara alltför stor (dålig approximation av derivaten) eller för
liten (kancellering av signifikanta siffror). Bästa värdet på h är
√
problemberoende. Tumregel: h ∼ M
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(24 : 37)
Jacobianberäkningar
Beräkning av Jacobimatrisen med finita differenser kräver n2 + 1
evalueringar av f .
I
Kan vara mycket kostsamt för stora problem
I
(speciellt om en evaluering av f innefattar en numerisk lösning av
exempelvis en partiell differentialekvation)
Ett vanligt tillvägagånssätt
I
Börja med finita differensapproximationer av Jacobianen
I
Använd sedan sekantapproximationer, baserade på
funktionsvärdena f (x k+1 ) och f (x k ) samt gissningarna x k+1 och
x k , för att uppdatera Jacobianapproximationen (Begränsning 1).
I
Användning av sekantapproximationer istället för den exakta
Jacobianen reducerar konvergensordningen något (metoden
konvergerar superlinjärt istället för kvadratiskt)
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(25 : 37)
Andra problem med Newtons metod
I
Behovet av en startgissning nära lösningen kan tas bort genom
användning av globaliseringstekniker, vilket medför att metoden
konvergerar oavsett startgissning.
I
I
Globaliseringen modifierar steglängden och/eller stegriktningen när
man är långt från lösningen, vilket är typiskt under de första stegen.
(Begränsning 3)
Det finns också tekniker för att ta hand om singulära Jacobianer
(Begränsning 4)
Spjutspetsimplementationer av Newtons metod är mycket mer
komplicerade än grundalgoritmen!
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(26 : 37)
Fixpunktsiterationer
I
En klass av iterativa metoder som undviker lösning av linjära system
(Begränsning 2)
I
De är därför extra intressanta för lösning av mycket stora problem
I
Vanligtvis mycket långsammare än Newtons metod
Obervera: konstruktionen av en bra fixpunktsmetod är problemberoende
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(27 : 37)
Fixpunktsiterationer
Ide:
I
Skriv f (x) = 0 som ett fixpunktsproblem x = g (x)
I
I
Det går alltid att göra en sådan omskrivning, exempelvis x = x − f (x)
Definiera det iterativa schemat
x n+1 = g (x n )
och “hoppas” att det konvergerar mot en fixpunkt till g , vilket per
konstruktion är en lösning till f (x) = 0
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(28 : 37)
Fixpunktsiterationer
I
Iterationerna konvergerar om g är en kontraktion; alltså om det
finns ett C < 1 så att
kg (x) − g (y )k ≤ C kx − y k
för varje x, y i en (konvex) delmängd av Rn
I
Eller i ord, om g (x) och g (y ) är strikt närmare varandra än x och y
så är g en kontraktion
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(29 : 37)
Fixpunktsiterationer
I
Inte alltid enkelt att se om en avbildning är en kontraktion!
I
Ett tillräckligt villkor för att en kontinuerligt differentierbar funktion
g ska vara en kontraktion är att
kJ(x)k < 1
för varje x i ett område, där J är Jacobianen för g (Observera:
matrisnorm)
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(30 : 37)
Fixpunktsiterationer
I
Enkelt, vi behöver inte lösa några linjära ekvationssystem
I
För extremt stora problem kan de vara den enda möjliga
lösningsvägen
I
Att konstruera en lämplig kontraktiv funktion g är i hög grad
problemberoende
I
Robusta versioner av Newtons metod är (om tillämpliga) vanligtvis
mycket snabbare
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
∗
(31 : 37)
Minstakvadratproblem
Antag att vi har observationer
yi
i = 1, 2, . . . . , m vid tiderna
ti
i = 1, 2, . . . . , m
◦
och en model y (t, x)
◦ ◦
◦ ◦
◦
Ex1: y (t, x) = x1 + x2 t + x3 t
2
Ex2: y (t, x) = x1 e x2 t
Vi vill bestämma de “bästa” x1 , x2 , . . . , xn så att y (ti , x) ≈ yi
(Vanligtvis m >> n)
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
∗
(32 : 37)
Minstakvadratproblem
Vanligtvis (på grund av mätfel, modelleringsfel, brus, etcetera),
yi − y (ti , x) 6= 0 även för det “bästa” parametervalet x
Här betyder “bästa” parametervalet x det x som är bäst i
minstakvadratmening
Vi vill alltså:
Hitta det x ∈ Rn som minimerar
M
1X
[yi − y (ti , x)]2
2
i=1
Definition
Linjärt minstakvadratproblem: y är linjär i x (Ex1)
Icke-linjärt minstakvadratproblem: y är icke-linjär i x (Ex2)
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(33 : 37)
∗
Linjära minstakvadratproblem
Låt oss först titta på fallet
m
1X
minn f (x) =
fi (x)2
x∈R
2
i=1
där fi är linjär i x, vilket betyder att
2 1
1
1
1
f (x) = Ax−b = (Ax−b)(Ax−b)T = x T AT Ax−x T AT b+ b T b,
2
2
2
2
där A är en m × n matris och b är en m kolonnvektor
Om AT A är positivt definit så har minimeringsproblemet ovan lösningen
x ∗ , som uppfyller normalekvationerna
AT Ax ∗ = AT b
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
∗
(34 : 37)
Icke-linjära minstakvadratproblem
m
minn f (x) =
x∈R
1X
fi (x)2
2
i=1
I detta fall kan vi skriva gradienten och Hessianen av f som
∇f (x) =
∇2 f (x) =
m
X
∇fi (x)fi (x)
i=1
m h
X
∇fi (x) ∇fi (x)
T
i
+ ∇2 fi (x)fi (x)
i=1
Vi kan exempelvis använda oss av Newtons metod för att lösa ∇f = 0
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
∗
(35 : 37)
Icke-linjära minstakvadratproblem
m
minn f (x) =
x∈R
1X
fi (x)2
2
i=1
Det är dock vanligtvis bättre att använda den struktur som problemet har
Taylor utveckling ger
1
f (x + s) = f (x) + ∇f (x)T s + s T ∇2 f (ξ)s
2
där ξ = x + αs för något α ∈ [0, 1]
Ide: vid iteration k, approximera Hessianen ∇2 f i den okända punkten ξ
m h
med
i
X
T
Bk =
∇fi (x k ) ∇fi (x k ) + någonting enkelt
i=1
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(36 : 37)
∗
Icke-linjära minstakvadratproblem
Vad är “någonting enkelt”?
I
0 (noll) rimligt om redidualen är liten samt för svagt olinjära problem
I
(annars använd λI , där I är identitetsmatrisen och λ > 0)
Approximera f med
1
fˆ(x) = f (x k ) + ∇f (x k )T (x − x k ) + (x − x k )T Bk (x − x k )
2
ta fram steget s k genom att lösa Bk s k = −∇f
Observera:
Ekvivalent till att lösa det linjära minstakvadratproblemet
∇F (∇F )T s = −(∇F )F
där F = [f1 , f2 , . . . , fn ] och ∇F = [∇f1 ∇f2 . . . ∇fn ]T
Eddie Wadbro, Tema 3: Icke-linjära ekvationer, 18 november, 2015
(37 : 37)