Prognosmodeller - Linköping University

Planering av Räddningssystem
Fö 5: Prognosmodeller
Tobias Andersson Granberg
Blåljuslogistik
Diskussionsuppgift
+
Designa ett
räddningssystem
för området.
Diskutera behov,
och hur dessa kan
förutsägas.
Prata med grannen
eller bilda små
grupper.
+
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
2
Blåljuslogistik
Källor
• Delar av materialet till denna föreläsning är
hämtat från:
– Magnusson, E., Ambulanslogistik prognostisering av ambulansuppdrag,
Examensarbete, LITH-ITN-KTS—07/009--SE
– Edlund, Högberg, Leonardz: Beslutsmodeller –
redskap för ekonomisk argumentation
– Jaldell: Förväntat antal bränder
– Andersson Granberg, T. & Gustafsson, A. (2010)
Lokalisering av räddningstjänstresurser i
Östergötland. CARER Rapport 2010:3, Linköping
University Electronic Press, Sweden.
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
3
Blåljuslogistik
Prognoser
• ”Prognosis” (gr) betyder förutsägelse
• En prognos kan vara
– Värdet på en variabel vid en viss tidpunkt
– Tidpunkten för en händelse
– Resultatet av en händelse
• Syfte
– Organisera och analysera befintlig kunskap så att
osäkerheten i en beslutssituation minskar
• Resurser
– Reduktionen i osäkerhet är vanligen proportionell mot
kostnaden för prognosen
– Förlust pga osäkerhet måste vägas mot kostnaden för
prognosen
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
4
Blåljuslogistik
Prognosmodeller
• Kvalitativa modeller
– Bygger på åsikter och
bedömningar (från
experter)
– Långsiktiga prognoser
– Historisk data saknas
4 February, 2015
• Kvantitativa modeller
– Matematiska
– Historisk data används
– Extrapolering av
historiska värden
– Kausala modeller
– Tidsseriemodeller
TNSL13 – Tobias Andersson
Granberg
5
Blåljuslogistik
Efterfrågemodell
• Man skiljer ibland på efterfrågemodell och
prognosmetod
– Efterfrågemodellen är en beskrivning av den
process som genererar efterfrågan
– Efterfrågemodellen skattas av historisk data
– Prognosmetoden baseras på
efterfrågemodellen
• Innan man väljer prognosmetod bör man
ha skaffat sig en god uppfattning om hur
efterfrågan historiskt sett ut
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
6
Blåljuslogistik
Metodik
• Visualisering/analys av historisk data ->
efterfrågemodell
• Val av prognosmetod baserat på
efterfrågemodellen
• Validering av prognosmodellen
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
7
Blåljuslogistik
Analys av historisk data
• Plotta data
– Tex i Excel, Matlab, etc
• Aggregera på olika tidsintervall för att hitta
olika effekter
– Antal händelser per månad
– Antal händelser per dag
– Antal händelser per timme
• Bestäm vilka faktorer som ska ingå i
prognosen
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
8
Blåljuslogistik
Antal uppdrag per dag
140
Summa av Antal
120
100
80
Totalt
Linjär (Totalt)
60
40
20
0
Datum
Källa: Magnusson, 2007
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
9
Blåljuslogistik
Antal uppdrag per månad
2500
Summa av Antal
2000
1500
Totalt
1000
500
0
1
2
3
4
5
6
7
8
9
10
11
12
Månad
Källa: Magnusson, 2007
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
10
Blåljuslogistik
Antal uppdrag per veckodag
3600
Summa av Antal
3500
3400
3300
3200
3100
Totalt
3000
2900
2800
2700
2600
Måndag
Tisdag
Onsdag
Torsdag
Fredag
Lördag
Söndag
Veckodag
Källa: Magnusson, 2007
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
11
Blåljuslogistik
250
Summa av Antal
200
Veckodag
Måndag
Tisdag
Onsdag
Torsdag
Fredag
Lördag
Söndag
150
100
50
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Timme
Källa: Magnusson, 2007
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
12
Blåljuslogistik
Metodik
• Visualisering/analys av historisk data ->
efterfrågemodell
• Val av prognosmetod baserat på
efterfrågemodellen
• Validering av prognosmodellen
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
13
Blåljuslogistik
Faktorer vid prognosmodellval
• Tidshorisont
–
–
–
–
Kortsiktiga (max 1 år)
Medellånga (5-10 år)
Långsiktiga (20 år och framåt)
Långa tidshorisont ger större
osäkerhet och mindre nytta av
historiska data
• Datamönster
–
–
–
–
–
–
–
T (Trend)
K (Konjunktur)
S (Säsong)
ε (Slumpterm)
Impulser (tillfälliga effekter)
Nivåförändringar
Trendbrott
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
14
Blåljuslogistik
Faktorer vid prognosmodellval
• Detaljnivå
• Kostnad
– Komplexitet i modellen
ger ökad kostnad
• Noggrannhet
– Förmåga att generera
prognoser som ligger
nära det riktiga värdet
• Tillgång på data
– Kan vara svårt speciellt
för kausala modeller
• Användarvänlig
4 February, 2015
– Samma variabel kan
prognostiseras på olika
detaljnivå
– Efterfrågan
•
•
•
•
Årsefterfrågan
Per försäljningskanal
Per månad
Nedbrutet på
komponentnivå
– Delprognoserna bör
summera till
totalprognosen
TNSL13 – Tobias Andersson
Granberg
15
Blåljuslogistik
Kvantitativa prognosmetoder
• Naiva modeller
• Utjämningsmodeller
• Komponentuppdelningsmodeller
• Regressionsmodeller
4 February, 2015
• yt =
prognosvariablens
riktiga värde period t
• y*t+k = prognos för y i
period t+k
• xt = förklarande
variabel
• e t = y t – y *t =
prognosfelet
TNSL13 – Tobias Andersson
Granberg
16
Blåljuslogistik
Naiva modeller
• Enklast: y*t+1 = yt
• Säsong: y*t+1 = yt-11
• Trend: y*t+1 = yt + Tt (alt Ttyt)
• Används ofta för att jämföra mot mer
avancerade modeller
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
17
Blåljuslogistik
Utjämningsmodeller
• Slumpmässig variation gör att naiva
modeller fungerar dåligt
• Utjämningsmodeller jämnar ut prognosen
till en jämnare nivå
t


1
*
• Glidande medeltal: yt + k =  ∑ yi 
N  i =t − N +1 
• N väljs så att prognosfelet minimeras
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
18
Blåljuslogistik
Glidande medeltal exempel
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
19
Blåljuslogistik
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
20
Blåljuslogistik
Exponentiell utjämning
• Glidande medeltal ger alla observationer
samma vikt, och kastar observationer äldre
än N perioder bak i tiden
• Exponentiell utjämning ger nya observationer
större vikt, och behåller all information sedan
start
• Enkel exponentiell utjämning (för nivåserier)
• Dubbel exponentiell utjämning (vid trend)
• Winters metod för exponentiell utjämning (vid
trend och säsong)
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
21
Blåljuslogistik
Enkel exponentiell utjämning
• y*t+k = αyt + (1-α)y*t
–0<α<1
• α bestäms genom försök
• Vad gör man om det kommer kraftigt
avvikande observationer?
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
22
Blåljuslogistik
Enkel exp utj exempel
y*t+k = αyt + (1-α)y*t
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
23
Blåljuslogistik
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
24
Blåljuslogistik
Dubbel exponentiell utjämning
• y*t+k = at + btk
– a är nivån tid tiden t, b är trenden vid tiden t
– Både a och b kan uppdateras när nya
observationer görs
•
•
•
•
y’t = αyt + (1-α)y’t-1
y’’t = αy’t + (1-α)y’’t-1
at = 2y’t – y’’t
bt = α/(1- α) (y’t-y’’t)
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
25
Blåljuslogistik
Dubbel ex utj exempel
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
26
Blåljuslogistik
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
27
Blåljuslogistik
Winters exponentiella utjämning
• y*t+k = (y’t + btk) St-L+k
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
28
Blåljuslogistik
Komponentuppdelningsmodeller
• I traditionell tidsserieanalys finns fyra
komponenter: Trend, Konjunktur, Säsong och
Slump
• Om tidsserien kan delas upp i dessa komponenter
kan slutsatser dras om deras betydelse
• yt = TtStεt
–
–
–
–
–
–
1. skatta trendkomponeneten
2. eliminera trendkomponeneten
3. skatta säsongskomponenten
4. säsongsrensa
5. kontroll att enbart slumptermen återstår
6. prognos
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
29
Blåljuslogistik
Regressionsmodeller
• Regressionsanalys
– Grafiska och analytiska metoder för att bestämma samband
mellan en beroende variabel och en (enkel regression) eller flera
(multipel regression) förklarande variabler
• y = α + β1x1 + β2x2 + … + βkxk + ε
• Ingående parametrar skattas genom minimering av
prognosfelen (minsta-kvadrat-metoden (MKM))
• Vid enkel regression med tiden som förklarande variabel blir
det en tidsseriemodell, annars en kausal modell
• Som mått på sambandets styrka används andelen förklarad
variation r2 (vid enkel regression) eller förklaringsgraden R2.
• Höga värden på R2 ger ett starkt statistiskt samband (behöver
dock inte vara kausalt)
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
30
Blåljuslogistik
Minsta-kvadrat-metoden
• Linjär modell, enkel regression
• yt = a + bxt
• Minimera summan av kvadratfelen:
– Min sum_t (yt – (a + bxt))2
– Mätvärden för ett antal yt och xt existerar
– Hur får vi a och b?
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
31
Blåljuslogistik
Regressionsanalys exempel
År
1
2
3
4
5
6
7
Försäljning [st]
168
163
166
157
139
139
[129]
Pris [kr/st]
56
64
64
77
80
79
[81]
1. Grafisk analys
2. Val av modell
–
–
yt = α + βxt + εt
yt = α + βt + εt
3. Skattning av modell
yt = 237.7 – 1.177 :xt : r2 = 0.79
yt = 177.9 – 6.457 t : r2 = 0.84
–
Räkna fram α och β
genom MKM, eller
använd Excel
4. Tolkning av resultat
5. Prognos
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
32
Blåljuslogistik
Metodik
• Visualisering/analys av historisk data ->
efterfrågemodell
• Val av prognosmetod baserat på
efterfrågemodellen
• Validering av prognosmodellen
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
33
Blåljuslogistik
Utvärdering av prognoser
• Prognosfel
• Prognosfel beror på
– Slumpmässiga
• Medelvärdet nära noll
– Systematiska
• Medelvärde skiljt från
noll
• Noggrannhet:
överensstämmelse
mot korrekt värde
• Precision: graden av
variation
4 February, 2015
– Mätfel
– Slumpmässig variation
– Felaktig
prognosmodell
– Ändrade
förutsättningar
TNSL13 – Tobias Andersson
Granberg
34
Blåljuslogistik
Mått på prognosfel
• Medelkvadratfelet: MSE = sum(e2)/ n
– Bestraffar stora avvikelser hårt
• Medelfelet: ME = sum(e)/n
– Bör vara nära noll om inte systematiskt fel
• Medelabsolutfelet: MAE = sum(|e|)/n
– Bestraffar inte stora avvikelser lika hårt som
MSE
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
35
Blåljuslogistik
Valideringsmetodik
• Om tillräckligt med data finns
– Dela upp data i två mängder
• En kalibreringsmängd
• En valideringsmängd
• Kalibreringsmängden kan vara större än valideringsmängden
– Analysera först hela mängden för att välja rätt modell
– Kalibrera (bestäm värden på parametrar i modellen)
modellen, enbart baserat på kalibreringsmängdens
data
– Validera modellen med valideringsmängdens data
– Om en systemförändring skett (tex en ny väg har
tillkommit) fungerar inte detta
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
36
Blåljuslogistik
Valideringsmetoder
• Beräkna prognos, jämför mot faktiskt utfall
• Beräkna medelfel, medelabsolutfel, etc
• Kontrollera grafer, kartor, etc visuellt för att kolla så att prognosen
ser vettig ut
• Låt experter bedöma prognosen
• Hitta förklaringar för eventuella avvikelser
• Känslighetsanalys
– Hur mycket varierar prognosen om indata varieras?
– Hur påverkas beslut som ska baseras på prognosen, beroende på hur
prognosen ser ut?
• Hur vet man om den är valid?
– Går inte att säga i det enskilda fallet
– Den behöver inte stämma perfekt, så länge den kan anses användbar
– I slutändan måste en subjektiv bedömning göras, i bästa fall av flera
systemexperter som är ense
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
37
Blåljuslogistik
Metodik
• Visualisering/analys av historisk data ->
efterfrågemodell
• Val av prognosmetod baserat på
efterfrågemodellen
• Validering av prognosmodellen
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
38
Blåljuslogistik
Prognostisering av bränder
• Modell för förväntat antal bränder i bostad för
Sverige indelat i 1 km-rutor
• Fem steg:
1. Antag att antalet bränder kan förklaras av ett antal
förklaringsvariabler, bla byggnadstyper, befolkning,
socioekonomiska förhållanden (156 variabler)
2. Reducera antalet förklarande variabler mha
faktoranalys
3. Hitta statistiska samband mellan den beroende
variabeln och de oberoende (förklarande)
variablerna mha regressionsanalys
4. Beräkna ett förväntat värde för den beroende
variabeln mha modellen
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
39
Blåljuslogistik
Variabler i prognosen
• Vilka förklaringsvariabler borde vara med?
–
–
–
–
–
–
–
–
–
–
–
–
Antal av olika byggnadstyper
Byggnadsålder
Befolkningsantal och åldersstruktur
Tätort vs landsbygd
Antal sysselsatta i olika branscher
Utländsk bakgrund
Familjetyp
Utbildningsnivå
Arbetslöshet
Inkomstnivå
Ohälsa
Turism
• Hur hittar man data?
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
40
Blåljuslogistik
Variabeldata
• Oberoende variabler
– Statistiska centralbyrån (SCB)
– Fastighetsregistret
• Beroende variabel
– Insatsstatistik (tex från MSB - http://ida.msb.se)
• 1998-2006
• Koordinatsatt och fördelad på 1km-rutor
– Bortfall
• Ej koordinatsatta
• Ej elektroniska insatsrapporter
• Inte speciellt stort
Missar fritidshus!
– Rensning
• 536 247 st rutor totalt i Sverige
• 16 073 hade en brand i bostad
• Ta bort alla rutor där det inte bor någon -> 114 826 rutor
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
41
Blåljuslogistik
Reduktion av antal förklaringsvariabler
• Variabler som är starkt korrelerade med andra kan tas bort
• Faktoranalys gjordes med proceduren Varclus i programmet
SAS (Statistical Analysis System)
• Bostadsbyggnadsvariabler: 23 var -> 4
– Antal lägenheter, antal rad-par-kedjehus, antal friliggande
småhus, antal bostadsrätter
• Befolknings- och familjedata: 52 var -> 3
– Total befolkning, befolkning i åldern 0-19 år, antal födda utanför
Norden
• Arbetslöshets-, utb-, inkomst- och ohälsodata: 81 var -> 4:
– Antal ohälsodagar, antal eftergymnasialt utbildade, antal
arbetslösa, antal grundskole- och gymnasieutbildade
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
42
Blåljuslogistik
Regressionsanalys
• Linjär OLS-modell (ordinary least squares)
• Kvadrerad totalbefolkning ger bättre
modell! Varför?
Variabel
Parameterestimat
Antal lägenheter
0.00527
Antal småhus
0.00839
Antal bostadsrätter
-0.00362
Total befolkning i kvadrat
0.000111
Antal födda utanför Norden
0.0160
Antal eftergymnasialt utb
-0.00195
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
43
Blåljuslogistik
Beräkning av prognos
• För varje 1km-ruta beräknas ett förväntat
värde
• Determinationskoefficienten R2 = 0.87
• Observera att modellen baseras på
nationell data
– Lokala variationer förekommer
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
44
Blåljuslogistik
Validering av brandprognos för Östergötland
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
45
Blåljuslogistik
Validering av brandprognos för Östergötland
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
46
Blåljuslogistik
Validering av brandprognos för Östergötland
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
47
Blåljuslogistik
Validering av brandprognos för Östergötland
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
48
Blåljuslogistik
Validering av brandprognos för Östergötland
• Medelabsolutfelet är ca 0,5 olyckor per område och år,
• Medelutfallet (historiskt) per område och år är ca 1,2
• Prognostiserat antal brand i bostad är i snitt ca 1,2
olyckor per område och år
• Korrelationen mellan historiska och prognostiserade
värden beräknas till 0,62, vilket tyder på att det finns
ett positivt samband mellan prognosen och det
historiska utfallet, om dock något svagt.
• Författarnas slutsats blir att prognosmodellerna är
tillräckligt bra för det avsedda syftet. Detta på grund av
den positiva korrelation som kan påvisas med historisk
data, men också på grund av avsaknaden av bättre
alternativ.
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
49
Blåljuslogistik
Prognostisering av ambulansuppdrag
• Kombination av olika metoder
• Data
– Koordinatsatta uppdrag av olika prio
– Dag och nattbefolkning
• Problem: data för små områden blir osäkert
• Lösning: gör först en prognos för ett större
område och dela sedan upp den på mindre
– Gör en prognos för hela länet som förutsäger
antal uppdrag per timme
– Fördela uppdragen geografiskt efter befolkningen
– Svagheter?
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
50
Blåljuslogistik
Prognos för ambulansuppdrag i ett län
• Identifiera ev trender, säsonger, etc.
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
51
Blåljuslogistik
p1+p2
120
100
80
Måndag
Tisdag
Onsdag
Torsdag
Fredag
Lördag
Söndag
60
40
20
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
timme
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
52
Blåljuslogistik
Prognos för ambulansuppdrag i ett län
•
•
•
•
Identifiera ev trender, säsonger, etc.
Bestäm metod
Tillämpa metod
Tex: yt = prognos för antal Prio 1 uppdrag
tidsindex t
– i är en viss timme en viss dag i veckan, tex
11-12 en tisdag
• Det totala antalet uppdrag måste fördelas
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
53
Blåljuslogistik
Geografisk fördelning av Prio 1 uppdrag
•
•
•
•
Låt di = dagbefolkning i zon i
Låt ni = nattbefolkning i zon i
Låt P = total befolkning i länet
Låt u1it = förväntat antal Prio 1 uppdrag i
zon i tid t.
• Antag att dag är 7-18, natt 18-7
• Om t ligger under dag u1it = di * yt / P
• Om t ligger under natt u1it = ni * yt / P
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
54
Blåljuslogistik
Uppgift 4
• Skapa minst tre olika prognoser för
relevanta händelser i länet
• Vilka händelser är relevanta?
• Vilken data behövs?
• Vilken prognosmodell ska användas?
4 February, 2015
TNSL13 – Tobias Andersson
Granberg
55