Indholdsfortegnelse

Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Indholdsfortegnelse
1
INDLEDNING OG PROBLEMSTILLING ............................................................................ 2
1.1
2
O VERVÆGT SOM CASE........................................................................................................... 2
ANALYSEFORBEREDELSER ............................................................................................... 4
2.1
HEPRO- UNDERSØGELSEN .................................................................................................... 4
2.2
DEN AFHÆNGIGE VARIABEL – VIGTIGHED AF ÆNDRINGEN AF VÆGT ..................................... 5
2.2.1 Interval eller ordinalskalleret? ........................................................................................ 5
2.2.2 De forskellige mål ............................................................................................................ 7
2.3
DEN UAFHÆNGIGE VARIABEL – BMI .................................................................................... 8
2.4
ANDRE FAKTORER ................................................................................................................. 8
2.4.1 Fysisk tilstand .................................................................................................................. 8
2.4.2 Psykisk tilstand............................................................................................................... 10
2.4.3 Baggrundsvariable......................................................................................................... 11
3
ANALYSE................................................................................................................................. 12
3.1
ANVENDELSE AF LINEÆR REGRESSION ................................................................................ 12
3.1.1 Simpel lineær regression................................................................................................ 12
3.1.2 Multipel lineær regression – kontrol for andre faktorer ............................................... 15
3.2
ANVENDELSE AF ALMINDELIG LOGISTISK REGRESSION ....................................................... 19
3.2.1 Simpel logistisk regression ............................................................................................ 19
3.2.2 Multipel logistisk regression – kontrol for andre faktorer ............................................ 20
3.3
ANVENDELSE AF MULTINOMINAL LOGISTISK REGRESSION .................................................. 22
3.3.1 Simpel multinominal regression .................................................................................... 22
3.3.2 Multipel multinominal regression .................................................................................. 23
3.4
ANVENDELSE AF ORDINAL LOGISTISK REGRESSION ............................................................. 26
4
SAMMENLIGNING AF MODELLER ................................................................................. 28
5
OPSAMLING ........................................................................................................................... 32
6
LITTERATURLISTE ............................................................................................................. 33
7
BILAG - SPSS PROGRAMMERING ................................................................................... 34
Side 1 af 39
Test og sammenligning af udvalgte regressionsmodeller
1
Berit Christina Olsen forår 2008
Indledning og problemstilling
En given problemstilling kan oftest undersøges ved hjælp af flere metoder, hvor nogle
undersøgelsesmetoder selvfølgelig er mere oplagte end andre. Inden for den kvantitative metode og
brugen af statistik kan sammenhænge mellem bestemte variable ligeledes oftest analyseres ved
hjælp af flere forskellige statistiske mål og regressionsmodeller. Valget a f regressionsmodeller er
blandt andet afhængig af variablernes type, dvs. om de er intervalskallerede, ordinalskallerede eller
nominalskalerede. Målet med denne metodeopgave er at anvende og teste forskellige
regressionsmodeller til at analysere en bestemt problemstilling. Resultaterne fra de forskellige
analyser vil således blive sammenlignet, hvor der vil være en diskussion om fordele og ulemper ved
anvendelse af de forskellige regressionsmodeller i forbindelse med analysen af problemstillingen.
Til at afprøve regressionsmodellerne tages der udgangspunkt i en case omhandlende, hvorvidt det er
vigtigt for personer i region Nordjylland at ændre deres vægt. I nærværende opgave undersøges
dette, og hvilken sammenhæng der er med personernes BMI. Udover BMI undersøges det, om der
er andre faktorer, som kan formodes at have betydning for, hvorvidt det er vigtigt at ændre sin vægt.
Der vil således blive kontrolleret for en række relevante variable så som køn, alder, uddannelse,
psykisk tilstand og fysisk tilstand. Datagrundlaget for analysen er HEPRO-undersøgelsen, som vil
blive beskrevet i et kapitel 2.
Regressionsmodellerne, der vil blive anvendt til at undersøge sammenhængen mellem vigtigheden
af at ændre vægt og BMI, vil være en lineærregressionsmodel og logistiske regressionsmodeller.
Ved anvendelse af den logistiske regression vil der blive benyttet forskellige metoder til at
analysere den afhængige variabel på herunder almindelig logistisk regression, multinominal
regression og ordinal regression.
1.1
Overvægt som case
Ifølge sundheds og sygelighedsundersøgelsen foretaget af Statens Institut for folkesundhed er
næsten 45 % af danskerne over 15 år i dag overvægtige, hvilket svarer til 2,2 millioner danskere.
Heraf er 11,4 % eller næsten en halv million danskere svært overvægtige. Overvægt har betydelige
konsekvenser for både den enkelte som for eksempel forringet livskvalitet i form af
helbredsproblemer, følgesygdomme og social udstødelse og en økonomisk byrde for samfundet
(Indenrigs- og Sundhedsministeriet 2005:5).
Side 2 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Ud fra disse betragtninger er det således relevant at undersøge befolkningen i Nordjyllands
ændringsparathed i forhold til at ændre deres vægt i forhold til hvor høj eller lav deres BMI er. BMI
står for Body Mass Index, som er kropsvægten divideret med højden i centimeter i anden. Det kan
formodes, at der er andre faktorer i form af forskellige ressourcer eller barrierer, der har betydning
for, hvor vigtigt det er for en person at ændre sin vægt. Disse ressourcer og barrierer kunne for
eksempel være uddannelse, alder og den fysiske og psykiske tilstand. Sammenhængen mellem hvor
vigtigt det er for folk at ændre deres vægt og deres BMI, vil således ved hjælp af forskellige
regressionsmodeller blive analyseret og resultaterne af disse analyser sammenlignet.
Figur 1 – Samme nhæng mellem BMI og vigtigheden af ændring af vægt samt andre faktorer
BMI
Alder
Psykisk tilstand
Fysisk tilstand
Køn
Videregående udd.
Vigtigheden af
ændring af vægt
Side 3 af 39
Test og sammenligning af udvalgte regressionsmodeller
2
Berit Christina Olsen forår 2008
Analyseforberedelser
I følgende afsnit vil HEPRO- undersøgelsen, som er datagrundlaget for opgaven blive beskrevet. I
de efterfølgende afsnit vil de variable, der anvendes i analysen blive beskrevet herunder den
afhængige, den uafhængige og kontrolvariablene.
2.1
HEPRO-undersøgelsen
Til at belyse problemstillingen omkring sammenhængen mellem BMI og hvor vigtigt det er at
ændre vægt, anvendes som tidligere nævnt data fra HEPRO-undersøgelsen1 . HEPRO-undersøgelsen
blev udarbejdet i Region Nordjylland 2006-2007 i forbindelse med Kommunalreformen. Målet med
undersøgelsen er at udarbejde kommunale sundhedsprofiler, som kan bibringe kommunerne og
regionen viden om den aktuelle sundhedstilstand i landsdelen. Meningen med HEPRO er at fremme
sundheden for borgerne samt bidrage til at sætte folkesundhed øverst på den politiske dagsorden.
Gallup har stået for spørgeskemaundersøgelsen, og Statens institut for folkesundhed står for
bearbejdning af data og afrapportering til Region Nordjylland og kommunerne. Der er blevet sendt
ca. 22.000 spørgeskemaer ud heraf ca. 2200 pr kommune. I alt har 11.498 personer svaret på
spørgeskemaet, hvilket svarer til ca. 1000 fra hver kommune. Det er således kun lidt over halvdelen
af de der har modtaget spørgeskemaet som har svaret, og der er dermed et forholdsvist stort frafald.
Det store frafald har dog mindre betydning for denne opgave, da fokus her er på metoden og
anvendelse af forskellige regressionsmodeller og ikke på selve den valgte problemstilling. De
11.498 svar danner stadig et godt grundlag for de statistiske analyser, som vil blive foretaget i
opgaven. Spørgeskemaet indeholder spørgsmål omkring selvvurderet, helbred, livsstil, motivation
til forandring af livsstil, sygelighed, medicinforbrug, sociale forhold, arbejdsmiljø, netværk,
ensomhed/isolation, tryghed, deltagelse i lokalsamfundet, tillid til andre mennesker og til systemer,
ressourcer (Sundhedsprofil 2007:1-4).
1
HEPRO står fo r Health profiles eller på dansk sundhedsprofiler
Side 4 af 39
Test og sammenligning af udvalgte regressionsmodeller
2.2
Berit Christina Olsen forår 2008
Den afhængige variabel – vigtighed af ændringen af vægt
Til at belyse sammenhængen mellem vigtigheden af ændring af vægt og BMI, anvendes der til at
måle den afhængige variabel spørgsmålet:
-
Hvor vigtig er det for dig at ændre din vægt på en skala fra 0 til 10 hvor 0 er ”slet ikke
vigtigt” og 10 er ”meget vigtigt”?
Variablen er således en skala med kategorierne 0 til 10. Denne type af spørgsmål hvor der skal
svares på en skala med talværdier, anvendes ofte ved spørgeskemaundersøgelser. Ved anvendelsen
af en sådan type skala kan der dog opstå en diskussion om, hvordan variablen anvendes i analysen,
og det kan diskuteres, hvorvidt den er intervalskalleret, eller om den er ordinalskalleret, hvilket er
relevant, da valget af regressionsmodel er afhængig af, om variablen er intervalskalleret eller
ordinalskalleret. I følgende afsnit vil dette blive diskuteret i forhold til den afhængige variabel
omhandlende vigtigheden af at ændre vægt.
2.2.1
Interval eller ordinalskalleret?
Ved en ordinalskalleret variabel kan svarkategorierne rangordnes i enten stigende eller aftagende
rækkefølge. Ved en intervalskalleret variabel kan svarkategorierne ligeledes rangordnes, men ved
den intervalskallerede variabel er den indbyrdes afstand mellem svarkategorierne den samme. For at
den afhængige variabel skal kunne betegnes som intervalskalleret, skal der således være lige stor
afstand mellem de 11 kategorier. For at dette er tilfældet er det nødvendigt, at alle informanterne
opfatter den oprindelige skala fra 0 til 10 på samme måde, hvor der er lige stor afstand mellem
eksempelvis kategori 2 og 3 og kategori 8 og 9. Derudover er der risiko for en tendens til at vælge
nogle bestemte svarkategorier frem for andre. Er dette tilfældet skaber dette ligeledes en bias i
forhold til svarfordelingen. For at undersøge dette ses der således nærmere på en frekvens over
variablen.
Tabel 1 viser svarfordelingen, og de kategorier med højst svarprocent viser sig at være 0 og 10 på
henholdsvis 25 og 15,5 %, hvilket vil sige yderkategorierne. Derudover viser der sig et mønster, ved
at midterkategorien 5 har en forholdsvis høj svarprocent på 10 % og kategorierne 4 og 6 ved siden
af, har en forholdsvis lav svarprocent på 3,8 og 4,9 %. Mellem yderkategorien 0 og
midterkategorien 5 har svarkategori 2, der er en den 3. svarkategori fra yderkategorien med den
højeste svar procent på 6,4 %. Dette gør sig også gældende mellem midterkategorien 5 og
Side 5 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
yderkategorien, hvor svarkategori 8 har den højeste svarprocent. Det tyder således på at nogle
svarkategorier vælges oftere end andre, hvilket skaber en form for bias.
Tabel 1 – Svarfordelingen på den afhængige variabel
Skala
0
1
2
3
4
5
6
7
8
9
10
Procent
25
5
6,4
5,5
3,8
10
4,9
8,8
10,3
4,7
15,5
For at få mest ud af data er det nødvendigt at anvende den regressionsmodel, hvor der går mindst
data tabt og på den måde maksimere variablens målingsniveau. Jo højere målingsniveau, jo mere
information indeholder variablen. I datahierarkiet ligger den intervalskallerede variabel således
højere end den ordinalskallerede. Betegnes den afhængige variabel som intervalskalleret, vil man få
det største udbytte af dataene ved anvendelse af en lineærregressionsmodel. Der kan her stilles
spørgsmålstegn til, om man blot kan tillade sig at antage, at alle informanterne i en undersøgelse
opfatter en skala med talværdier som en differential skala og analysere den som dette, ved f.eks. at
anvende en lineær regressionsmodel. Opfatter alle informanterne det ikke som en differential skala,
og der anvendes en lineær regressionsmodel til at analysere sammenhængen mellem den og andre
variable, begås der er en fejl. I tilfældet med ’vigtigheden af ændringen af vægt’, vil det på
baggrund af fordelingen af svar meget sandsynligt være en fejlslutning at tro, at alle informanterne
opfatter skalaen som en differential skala, og variablen dermed ikke opfylder kravene til en
intervalskalleret variabel.
Betegnes variablen i stedet for som ordinalskalleret, vil det ikke være muligt at anvende den
lineærregressionsmodel, men i stedet en logistisk regressionsmodel. Ved anvendelse af en
almindelig logisk regressionsmodel, er det nødvendigt, at den afhængige variabel er dikotom. Dette
medfører, at analysen og resultatet bliver forsimplet i forhold til datamaterialet, hvor der i tilfældet
med ’vigtigheden af ændringen’ af vægt, oprindeligt er 11 svarkategorier. Anvendes der en
multinominal eller ordinal regressionsmodel, er det dog muligt at have flere kategorier på den
afhængige variabel.
Når der foretages en analyse, er det ved valg af analysemetode og regressionsmodel nødvendigt at
vurdere, hvilken model der bedst analyserer, og kommer med det resultat, der bedst kan løse den
givne problemstilling. I nærværende opgave kunne proble mstillingen være at motivere overvægtige
til at tabe sig, og det er således relevant at undersøge sammenhængen mellem BMI og vigtigheden
Side 6 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
af at ændre vægt samt inddrage for udvalgte variable, for at finde ud af hvem der synes det er vigtig
og ikke vigtigt at ændre vægt.
For at se på forskelle mellem anvendelse af de forskellige regressionsmodeller og disses resultater,
antages det først, at den afhængige variabel kan betegnes som en intervalskalleret variabel, og
sammenhængen mellem denne og den uafhængige variabel kan således analyseres ved hjælp af en
lineærregressionsmodel. Hernæst betegnes variablen som ordinalskalleret, og sammenhængen
analyseres ved hjælp af en logistisk regressionsmodel.
2.2.2
De forskellige mål
Til de forskellige regressionsanalyser anvendes der således de samme variable, de måles dog på
forskellig måde. Ved den lineære regressionsanalyse anvendes den oprindelige afhængige variabel
med de 11 kategorier som en intervalskalleret variabel. Ved den almindelige logistiske regression
omkodes denne til en binær variabel. Afhængig af den givne problemstilling er der forskellige
måder, hvorpå dette kan gøres mest hensigtsmæssigt. En mulighed kunne være at slå kategorierne
sammen således, at der er cirka lige mange i hver af de to nye kategorier, det vil sige kategorierne
0-4 og 5-10. På denne måde kommer den ene kategori til at bestå af informanter, der synes det er
vigtigt at ændres deres vægt og den anden af informanter, der synes det er mindre vigtigt at ændre
deres vægt. En anden mulighed er at omkode variablen således, at den ene kategori kun til kommer
at bestå af informanter, der slet ikke synes det er vigtigt at ændre deres vægt, og den anden kategori
vil bestå af de resterende informanter. Fordelen ved at slå kategorierne sammen på denne måde er,
at man kan se forskel på dem der slet ikke synes det er vigtigt at ændre deres vægt, og de resterende
som synes det er lidt til meget vigtigt at ændre deres vægt. Der er dermed muligt at undersøge,
hvorvidt det er informanter, der har et højt BMI, som slet ikke synes det er vigtigt at ændre deres
vægt og således de informanter hvis holdning man set i et sundhedsfremmende perspektiv gerne vil
ændre. På baggrund af dette omkodes variablen på sidstnævnte måde.
Ved den multinominale og ordinale regressionsanalyse omkodes den oprindelige variabel til en
variabel med 4 kategorier. Kategorierne slås sammen således at 0 bliver en kategori for sig selv.
Disse er de informanter, der slet ikke synes det er vigtigt at ændre vægt. Kategorierne 1-4, 5-7 og 810 slås sammen og er de informanter, der henholdsvis synes det er lidt vigtigt, noget vigtigt og
meget vigtigt at ændre vægt. Formålet med opgaven er således også, at undersøge om der er forskel
Side 7 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
på resultaterne når variablene omkodes på forskellig måde ved de forskellige regressionsanalyser,
og hvorvidt det dermed er muligt at manipulere med eller dreje resultaterne i en bestemt retning.
2.3
Den uafhængige variabel – BMI
Til at afdække den uafhængige variabel dannes der en BMI variabel ved hjælp af spørgsmål om
højde og vægt 2 . BMI variablen er således en intervalskaleret variabel, der går fra en minimumværdi
på 14,88 til en maksimumværdi på 71,49. Til den lineære regressionsanalyse vil den oprindelige
intervalskalerede variabel blive anvendt. WHO definerer personer med en BMI på under 18,5 som
undervægtige, mellem 18,5 og 25 som normalvægtige, mellem 25 og 30 som overvægtige og over
30 som svært overvægtige. Den samme inddeling af BMI anvendes ligeledes i nærværende rapport i
de logistiske regressionsanalyser.
2.4
Andre faktorer
Da der må formodes at være andre faktorer end BMI, der er bestemmende for, hvor vigtigt folk
mener det er at ændre deres vægt, inddrages der en række andre faktorer. Da casen omhandlende
ændringen af vægt skal virke som et eksempel til at vise anvendelsen af forskellige
regressionsmodeller og fordele og ulemper ved brugen af disse, er der udvalgt en begrænset
mængde kontrolvariable. I nedenstående beskrives de anvendte kontrolvariable og indeks.
2.4.1
Fysisk tilstand
Som kontrolvariable er der dannet to indeks af henholdsvis fire og fem spørgsmål. Disse er dannet
for at anvende så mange informationer fra spørgsmålene som muligt, uden at skulle anvende
variablene hver for sig.
Det ene indeks omhandler den fysiske tilstand og er dannet af fire følgende spørgsmål om, hvor ofte
man har følt følgende i de sidste 4 uger, hvor svarkategorierne består af ”hele tiden”, ”det meste af
tiden”, ”en hel den af tiden”, ”lidt af tiden”, og ”på intet tidspunkt”:
-
Har du følt dig veloplagt og fuld af liv?
-
Har du været fuld af energi?
-
Har du følt dig nedslidt?
-
Har du følt dig træt?
2
Der anvendes her selvrapporterede data. Ulempen ved at disse, er at der er risiko for at respondenterne angiver, at de
er højere end de er eller vejer mindre, end de gør i virkeligheden.
Side 8 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Efter at have vendt de nødvendige variable, det vil sige ’har du følt dig nedslidt’ og ’har du følt dig
træt’ således, at alle fire variable vender samme vej, foretages en faktoranalyse og reliabilitetstest.
Variablene viser sig at korrelere med en KMO på 0,688 og en Cronbachs Alpha på 0,842. Det er
dermed hensigtsmæssigt at danne et indeks af de fire variable. På det dannede indeks er det muligt
at få en score fra 4 til 20, hvor 4 svarer til det bedste fysiske helbred, og 20 svarer til det dårligste
fysiske helbred. Til den lineære regressionsanalyse anvendes dette indeks som en intervalskalleret
variabel. Ofte er der en tendens til at informanterne på sådanne indeks, klumper sig sammen på
midten, således at der er flest i midterkategorierne og få i yderkategorierne. Dette er tilfældet med
indekset for den fysiske tilstand og kan både skyldes, at informanterne har svaret i
midterkategorierne i de oprindelige spørgsmål, og at de i et spørgsmål har fået en høj score, og i et
andet har de fået en lav score, hvilket også vil medføre, at de til sammen får en score, som placerer
dem i midterkategorierne på indekset.
Til de logistiske regressionsanalyser er det mest hensigtsmæssigt at omkode indekset til en variabel
med færre kategorier. Fordelingen af informanterne på indekset har betydning for, hvordan
omkodningen foretages mest hensigtsmæssigt, så der bliver nogenlunde lige mange besvarelser i
hver kategori, men også hvad der er bedst i forhold til problemstillingen. Da der som tidligere
nævnt er flere, der har fået en score i midterkategorierne og færre i yderkategorierne, bliver indekset
omkodet til en variabel med fire kategorier som dannes ved at slå scorerne 4-7, 8-9, 10-11 og 12-20
sammen. På den måde kommer der til at være cirka lige mange besvarelser i hver af de fire
kategorier. Kategorien 4-7 kommer således til at indeholde de informanter, der har den bedste
psykiske tilstand, kategorien 8-9 vil indeholde de informanter, der har en lidt dårligere fysisk
tilstand, kategorien 10-11 vil indeholde de informanter, der har en noget dårligere fysisk tilstand, og
kategorien 12-20 vil komme til at indeholde de informanter, der har den dårligste fysiske tilstand.
Tabel 2 – Svarfordelingen på indekset over fysisk tilstand
Score
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Procent
3,3
2,4
7,6
14,7
16,3
11,7
11,7
7,2
8,1
4,8
4,3
2,7
2,1
1,2
1,1
0,5
0,4
Side 9 af 39
Test og sammenligning af udvalgte regressionsmodeller
2.4.2
Berit Christina Olsen forår 2008
Psykisk tilstand
Det andet indeks omhandler den psykiske tilstand, og er dannet af fem spørgsmål. Disse går ud på
at beskrive, hvor meget følgende problemer eller lidelser har generet i de sidste 7 dage, hvor
svarkategorierne består af ’over-hovedet ikke’, ’en lille smule’, ’en hel del’ og ’rigtig meget’.
-
Ængstelse, nervøsitet eller uro
-
Angst
-
Følelse af håbløshed for fremtiden
-
Nedtrykt, deprimeret, ulykkelig
-
For mange bekymringer
Variablene korrelerer ifølge en faktor analyse og reliabilitetstest med en KMO på 0,843 og
Cronbachs Alpha på 0,860, og det er dermed hensigtsmæssigt at danne et indeks af de 5 variable,
hvorpå der er muligt at få en score fra 5 til 20, hvor 5 svarer til bedste psykiske helbred, og 20
svarer til det dårligste psykiske helbred. Dette indeks anvendes ligeledes som en intervalskalleret
variabel til den lineære regressions analyse. Fordelingen på indekset for den psykiske tilstand
koncentrer sig i modsætning til på indekset for den fysiske tilstand i yderkategorien. Her er den
største procentdel på 37,9 % ved scoren 5, hvilket svarer til den bedste psykiske tilstand.
Tabel 3 – Svarfordelingen på indekset over psykisk tilstand
Score
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Procent
37,9
17,0
13,5
9,7
5,6
5,0
3,3
2,1
1,6
1,3
1,0
0,5
0,4
0,3
0,2
0,4
Ved anvendelsen af de logistiske regressionsanalyser omkodes også indekset for den psykiske
tilstand til en variabel med fire kategorier. Da størstedelen af informanterne har fået en forholdsvis
lav score på indekset, omkodes det ved at scoren 5 bliver en kategori for sig selv, scorerne 6-7, 8-10
og 11-20 slås sammen, så der på den måde kommer cirka lige mange besvarelser i hver kategori.
Kategorien 5 kommer således til at indeholde de informanter der har den bedste psykiske tilstand,
og overhovedet ikke har følt sig generet af ovenstående problemer i løbet af de sidste 7 dage.
Kategorien 6-7 vil indeholde de informanter der har været lidt generet af problemerne, kategorien 810 vil indeholde de informanter, der har følt sig noget generet af problemerne og kategorien 11-20
vil komme til at indeholde de informanter, der har været meget generet af ovenstående psykiske
problemer i løbet af de sidste 7 dage.
Side 1 0 af 39
Test og sammenligning af udvalgte regressionsmodeller
2.4.3
Berit Christina Olsen forår 2008
Baggrundsvariable
Udover psykisk og fysisk tilstand består de andre faktorer af baggrundsspørgsmål som alder, køn og
uddannelse. Til den lineære regressionsanalyse anvendes den intervalskallerede aldersvariabel, hvor
der til den logistiske regressionsanalyse anvendes en omkodet variabel med kategorierne 16-24 år,
25-44 år, 45-64 år og 65+ år. Derudover dannes der fire dummyvariable, som svarer til de fire
alderskategorier. Til den lineære regressionsanalyse anvendes en variabel med antal år på en
videregående uddannelse, erhvervsuddannelse eller anden type uddannelse. Til den logistiske
regressionsanalyse anvendes en omkodet variabel som inddeles i kategorierne ingen videregående
uddannelse, kort videregående uddannelse, mellemlang videregående uddannelse og lang
videregående uddannelse. Det er desuden værd at bemærke, at når køn-variablen anvendes i
analyserne, er det mænd, der er referencegruppen.
Side 11 af 39
Test og sammenligning af udvalgte regressionsmodeller
3
Berit Christina Olsen forår 2008
Analyse
I de følgende afsnit beskrives de anvendte regressionsmodeller og resultaterne fra
regressionsanalyserne vil blive præsenteret.
3.1
Anvendelse af lineær regression
Den lineære regressionsanalyse anvendes til at måle effekten fra en uafhængig variabel på en
afhængig variabel. Lineær regression går i hovedtræk ud på at lave en ret linie ud fra
observationernes placering i et koordinatsystem og ud fra denne, se om der er en lineær
sammenhæng mellem X og Y. Den sande regressionslinie for populationen er Y =
+ X. Ud fra
en stikprøve kan estimeres en regressionslinie Ŷ = a + bX, hvor konstanten a er liniens skæring med
y-aksen, og b er hældningskoefficienten (Agresti & Finlay 1997:309).
For at kunne anvende lineær regression, er der visse forudsætninger der skal være opfyldt i forhold
til typen af variable og observationernes fordeling. Det er således et krav, at de anvendte variable er
intervalskallerede. Det antages at variablen ’vigtighed for ændring af vægt’, opfylder denne
betingelse. Dikotome uafhængige variable accepteres ligeledes. Den uafhængige BMI variabel
opfylder også kravene til lineær regression, da denne er intervalskalleret. Det er ved anvendelse af
lineær regression også en forudsætning, at en lineær sammenhæng mellem variablene. (Agresti &
Finlay 1997:308).
Styrken
i
den
lineære
sammenhæng
mellem
variablene
undersøges
ved
hjælp
af
regressionskoefficienten Pearson’s r, som kan antage værdier mellem -1 og 1. Pearsons’ r er i den
bivariate analyse lig med den standardiserede regressionskoefficient (Agresti & Finlay 1997:417). I
analysen ses der på den justerede r2 , der er justeret for antal forklarende variable. Dette er
forklaringskraften, der giver udtryk for, hvor meget den uafhængige variabel forklarer af variansen
på den afhængige variabel.
3.1.1
Simpel lineær regression
Efter at have foretaget en simpel lineær regressionsanalyse i SPSS, hvor der ikke kontrolleres for
andre variable, er den justerede r2 -værdi for den simple lineære regression på 0,215, hvilket vil sige
at BMI forklarer 21,5 % af variansen på den afhængige variabel. P-værdien er signifikant, og det er
derfor muligt at forkaste Ho-hypotesen om, at der ikke er en sammenhæng mellem BMI og
Side 1 2 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
vigtighed af ændringen af vægt. Ud fra de rå koefficienter hvor a er -4,449 og b er 0,398 kan den
estimerede regressionsligning skrives som: Ŷ = - 4,449+ 0,398X.
I ligningen indsættes grænseværdierne for BMI samt nogle af midterværdierne. Det beregnes
således ud fra den estimerede lineære regressionsligning, hvor informanterne med en bestemt BMI
vil placere sig på den afhængige intervalskallerede variabel omhandlende, hvor vigtigt det er at
ændre vægt på en skala fra 0 til 10.
14,88: Ŷ = - 4,449 + 0,398 x 14,88 = 1,47
36,31: Ŷ = - 4,449 + 0,398 x 36,43 = 10,00
18,5: Ŷ = - 4,449 + 0,398 x 18,5 = 2,91
40:
Ŷ = - 4,449 + 0,398 x 40
= 11,47
Ŷ = - 4,449 + 0,398 x 50
= 21,45
25:
Ŷ = - 4,449 + 0,398 x 25
= 5,50
50:
30:
Ŷ = - 4,449 + 0,398 x 30
= 7,49
71,49: Ŷ = - 4,449 + 0,398 x 71,49 = 24,00
På baggrund af den estimerede regressionsligning vil informanter med minimum BMI- værdien på
14,88, have en værdi på 1,47 på den afhængige variabel omhandlende hvor vigtigt det er at ændre
vægt. Undervægtige informanter vil have en værdi på mellem 1,47 og 2,91 på den afhængige
variabel. Normalvægtige informanter vil have en værdi på mellem 2,91 og 5,50 på den afhængige
variabel. Overvægtige informanter vil have en værdi på mellem 5,50 og 7,49 på den afhængige
variabel. Svært overvægtige vil have en værdi på mellem 7,49 og 24. I og med at den oprindelige
skala på den afhængige variabel går fra 0-10, er det i øjenfaldende at Ŷ værdierne for de
informanter med en BMI på over 36,31, vil være over 10, som er den maksimale værdi på den
oprindelige skala. Dette kunne tyde på, at den lineære regression ikke er den model der bedst
beskriver sammenhængen mellem BMI, og ’hvor vigtigt det er at ændre vægt’.
På baggrund af ovenstående fremgår det således af den lineære regressionsanalyse, at der er en
sammenhæng mellem befolkningen i Region Nordjyllands mening om, hvor vigtigt det er for dem
at ændre deres vægt og deres BMI. Den positive hældning på regressionsligningen betyder, at jo
højere BMI en person har, jo vigtigere er det for dem at ændre deres vægt. På figur 2 ses et diagram
over sammenhængen mellem de to variable. Ud fra denne er det bemærkelsesværdigt at de
overvægtige ikke i så høj grad, som man måske kunne forvente, synes det er vigtigt vægt. Derimod
synes de svært overvægtige i noget højere grad, at det er vigtigt at ændre deres vægt.
Side 1 3 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Figur 2 – Diagram over sammenhængen mellem ’vigtigheden af at ændre vægt’ og ’BMI’
På figur 3 ses scatterplottet for sammenhængen mellem hvor vigtig det er for informanterne at
ændre deres vægt og deres BMI. På scatterplottet ses ligeledes den estimerede linje for den lineære
regression. Ved en nærmere undersøgelse af den estimerede regressionsligning, kan det som
tidligere nævnt betvivles, at sammenhængen mellem BMI og vigtigheden af at ændre vægt er
lineær. Det er ud fra scatterplottet svært at drage nogle konklusioner på grund af det høje antal
observationer, der placerer sig oveni hinanden på figuren. En mulighed er at sammenhængen
mellem de to variable i stedet for en lineær regressionsmodel, kan udtrykkes ved hjælp af en anden
regressionsmodel.
Dette kunne
f.eks.
være
en
logaritmisk
regressionsmodel eller en
andengradsligning, som også ses på figur 3. Hvor forklaringskræften r2 for den lineære
regressionsmodel er 0,215 er den for den logaritmiske regressionsmodel 0,225 og 0,233 for
andengradsligningen. Det kunne dermed tyde på at disse regressionsmodeller bedre beskriver
sammenhængen mellem BMI, og hvor vigtigt det er at ændre sin vægt. Da der kun er en forholdsvis
lille forskel på forklaringskraften mellem de tre regressionsmodeller, vil der i det følgende fortsat
blive anvendt den lineære regressionsmodel, hvor andre faktorer vil blive inddraget.
Side 1 4 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Figur 3 – Scatterplot over sammenhængen mellem ’vigtigheden af at ændre vægt’ og ’BMI’
3.1.2
Multipel lineær regression – kontrol for andre faktorer
Efter at have undersøgt hvor stor en sammenhæng der er mellem den uafhængige og afhængige
variabel ved hjælp af simpel lineær regression, er det relevant at undersøge, hvorvidt dele af
variansen på den afhængige variabel bliver forklaret af andre faktorer. De andre faktorer alder
psykisk tilstand, fysisk tilstand, køn, og videregående uddannelse indsættes dermed i en multipel
regressionsmodel. Der undersøges her således, hvor meget variablene forklarer af variansen på den
afhængige variabel, og om forholdet mellem den uafhængige og afhængige variabel ændrer sig.
På baggrund af en formodning om at køn har en betydning for, om man synes det er vigtigt at ændre
vægt, og om der eksisterer stor forskel mellem mænd og kvinder, indsættes først køn i en
regressionsmodel. På figur 4 og 5 ses scatterplottene samt de estimerede lineære ligninger for
sammenhængen mellem vigtigheden for ændringen af vægt og BMI for kvinder og for mænd hver
for sig.
Side 15 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Figur 4 – Scatterplot over sammenhængen mellem ’vigtigheden af at ændre vægt’ og ’BMI’ –
Kun kvinde r
Figur 5 – Scatterplot samme nhængen melle m ’vigtigheden af at ændre vægt’ og ’BMI’
Kun Mænd
Side 1 6 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Den estimerede ligning for kvinder bliver på baggrund af en lineær regressionsanalyse:
Ŷ = - 4,488+ 0,432X
For mænd bliver den estimerede ligning:
Ŷ = - 5,559+ 0,412X
Kvinderne mener således, at det er vigtigere at ændre vægt, end mænd synes. Derudover tyder det
på, at mændene skal have et større BMI i forhold til kvinder, før end de synes, det er vigtigt at
ændre deres vægt.
De resterende faktorer sættes herefter ind i regressionsmodellen. På baggrund af forskellen mellem
mænd og kvinder, kunne det tænkes, at der var en interaktion mellem køn og BMI. Der er i
regressionsanalysen således medtaget et interaktionsled med de to variable i den multiple analyse.
Dette viser sig dog ikke at være signifikant. Når alle variablene indsættes, er den justerede r2 -værdi
0,301, hvilket vil sige, at variablene tilsammen forklarer 30,1 % af variansen på den afhængige
variabel. Dette er 8,8 % point mere end hvad BMI forklarer alene i den bivariate analyse. Dette
tyder således på, at der også er en sammenhæng mellem disse og den afhængige variabel om
vigtigheden af at ændre sin vægt. Efter at have inddraget kontrolvariablene i regressionsmodellen,
falder de rå koefficienter a til -68,762 og b stiger til 0,452. Alle variablene på nær interaktionsledet
og den fysiske tilstand er signifikante.
På trods af at B værdien for alder er 0,031 og dermed forholdsvis lav, kunne det tænkes, at der er
forskel på, hvor vigtigt der er at ændre vægt for forskellige generationer. Dette undersøges ved at
indsætte fire dummyvariable i modellen i stedet for aldersvariablen. Dummyvariablene dækker over
aldersgrupperne 16-24 år, 25-44 år, 45-64 år og 65 år og derover. Den lineære multiple
regressionsanalyse er foretaget med en backward selection, hvilket vil sige at de variable, der ikke
er signifikante udtages af modellen en efter en, og afsluttende er der kun de variable, der er
signifikante med i modellen. I tabel 4 ses resultaterne for den simple lineære regressionsanalyse,
den multiple regressionsanalyse med aldersvariablen som intervalskalleret, den multiple
regressionsanalyse med alder som dummyvariable og den endelige model hvor kun de signifikante
variable er med. De variable der i analysen ikke er signifikante og derfor udtages, er
dummyvariablen for aldersgruppen 25-44 år, variablen for fysisk tilstand og interaktionsledet med
BMI og køn. I det følgende fokuseres der primært på værdierne fra den endelige model.
Side 17 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
I forhold til andre faktorer der kunne have betydning for, hvor vigtigt informanterne synes det er at
ændre vægt, kunne det på baggrund af den multiple regressionsanalyse med aldersvariablen tyde på,
at der er en positiv sammenhæng mellem vigtighed af at ændre vægt og alder da B er positiv med en
værdi på 0,031. Dette vil sige at jo ældre man er, jo mere synes man at det er vigtigt at ændre sin
vægt. I den endelige model hvor dummyvariablene anvendes i stedet for, ser det dog anderledes ud
Kategorien 16-25 år har en B-værdi på 0,585. Da værdien er positiv synes de således at det er
vigtigere at ændre vægt end resten af informanterne. Kategorien 45-64 år har en negativ B-værdi på
- 0,445, og disse synes således at det er mindre vigtigt at ændre deres vægt i forhold til resten af
informanterne. Kategorien 65+ har en negativ B-værdi på - 1,278 og synes dermed, at det er mindre
vigtigt at ændre deres vægt i forhold til resten af informanterne. I modsætning til
regressionsanalysen hvor der blev anvendt den intervalskallerede aldersvariabel viser det sig ved
anvendelsen af dummyvariable, at jo ældre man er, jo mindre vigtigt synes man det er at ændre
vægt. Ved anvendelse af forskellige mål, er det således muligt at få forskellige resultater.
Da referencegruppen for køn er mænd, betyder det, at kvinder synes, at det er vigtigere end mænd at
ændre deres vægt med en positiv B-værdi på 1,624. For de to indeks omhandlende psykisk og
fysisk tilstand, er det kun den psykiske tilstand, der viser sig at være signifikant. Her gælder det
ifølge den multiple regressionsanalyse, at jo værre man har det psykisk, jo vigtigere synes man det
er at ændre vægt med en positiv B-værdi på 0,088. Med hensyn til uddannelse gør det sig gældende,
at jo flere års videregående uddannelse man har, jo vigtigere synes man det er at ændre vægt med en
positiv B- værdi på 0,048.
Den lineære formel for multipel lineær regression her med k uafhængige variable ser således ud:
E(Y) = + 1 X1 + 2 X2 +...+ k Xk.
Ligningen for den endelige multiple lineære model bliver således:
Ŷ= -7,050 + 0,451 X1 + 0,585 X2 - 0,445 X3 -1,278 X4 + 0,088 X5 + 1,624 X6 + 0,048 X7
Det er i analysen desuden testet for multikollinaritet, hvilket vil sige, at de uafhængige variable
korrelerer meget med hinanden hvorved det kan påvirke r², og det er derved vanskeligt at adskille
effekten fra de enkelte uafhængige variable (de Vaus 2002:327). Da ingen af VIF-værdierne i dette
tilfælde overstiger fire, er der i regressionsanalysen således ikke multikollinaritet.
Side 1 8 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Tabel 4 – Resultater fra den lineære regressionsanalyse
M odel
(Constant)
BM I
Alder
Alderdum 16-24 år
Alderdum 45-64 år
Alderdum 65 år +
Psykisk tilstand
Fysisk tilstand
Køn (ref. M ænd)
Uddannelse antal år
Interaktion køn&BM I
3.2
B
- 4,449
,398
Simpel
Std.
Error
,191
,007
Sig.
,000
,000
M ultipel med alder år
M ultipel med alder som dummy Endelig model
Std.
B
Std.
Sig.
B
Std.
B
Error
Sig.
Error
Error
-68,762
4,360 ,000 -7,070
,332 ,000 -7,050
,236
,452
,012 ,000
,449
,012 ,000
,451
,008
,031
,002 ,000
,589
,115 ,000
,585
,115
-,445
,075 ,000
-,445
,075
-1,281
,117 ,000 -1,278
,117
,078
,015 ,000
,078
,015 ,000
,088
,012
,012
,013 ,373
,014
,013 ,302
1,641
,407 ,000
1,572
,407 ,000
1,624
,068
,048
,012 ,000
,048
,012 ,000
,048
,012
,000
,016 ,954
,002
,016 ,908
-
Sig.
,000
,000
,000
,000
,000
,000
,000
,000
-
Anvendelse af almindelig logistisk regression
I følgende analyse antages det, at den afhængige variabel ikke er intervalskalleret, og der vil således
blive anvendt logistisk regression til at analysere sammenhængen mellem de to variable samt
kontrol for de øvrige variable. Den logistiske regressionsmodel beskriver en asymmetrisk relation
mellem én binær variabel og en eller flere uafhængige variable. Overordnet går den ud på at
sammenligne chancerne for den samme hændelse under forskellige betingelser, hvilket er forholdet
mellem to odds-værdier. I forhold til lineær regression stilles der færre krav til anvendelsen af
logistisk regression. I den simple logistiske regressionsmodel er det er dog et krav, at den afhængige
variabel Y er dikotom, hvor der ingen krav er til skalaen på de uafhængige variable. Ligningen for
den logistiske regression er: Log it (π) = log
3.2.1
=α+β· x
Simpel logistisk regression
For at kunne analysere sammenhængen mellem vigtighed af ændring af vægt og BMI ved hjælp af
almindelig logistisk regression, er det således nødvendig at omda nne den afhængige
intervalskallerede vigtighed af ændringen af vægt variabel til en dikotom variabel, hvilket blev
beskrevet i afsnit 2.2.2. I den logistiske regressionsanalyse vil kategorien ’slet ikke vigtigt at ændre
vægten’ fungere som referencekategori, således at oddsene for succes bliver oddsene for, at det er
vigtigt at ændre vægt. For den uafhængige BMI- variabel er kategorien BMI på 18,5-25 valgt som
referencekategori, da dette svarer til at være normalvægtig. Efter at have foretaget den logistiske
regressionsanalyse uden inddragelse af andre faktorer i SPSS, viser det sig at alle kategorierne i den
uafhængige variabel er signifikante. Det ses yderligere at oddsene for at synes at ’det er vigtigt at
ændre vægt’ i forhold til ’slet ikke at synes det er vigtigt at ændre vægt’, for overvægtige er 4,821
gange større end når man normalvægtig. Ligeledes er oddsene for at synes, at det er vigtigt at ændre
Side 1 9 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
vægt, når man er svært overvægtig 14,615 gange større, end når man er normalvægtig. Er man
overvægtig, er der således tendens til, at man synes det er vigtigt at ændre vægt, i forhold til hvis
man er normalvægtig. Med hensyn til de undervægtige gælder det, at oddsene for at synes det er
vigtigt at ændre vægt, er 0,717 gange større hvis man er undervægtig, end hvis man er
normalvægtig.
3.2.2
Multipel logistisk regression – kontrol for andre faktorer
Efter at have foretaget en simpel logistisk regressionsanalyse, vil der i nedenstående blive
kontrolleret for de øvrige variable alder, psykisk tilstand, fysisk tilstand, køn og uddannelse. Ved
inddragelse af de andre faktorer stiger oddsene for, at man synes det er vigtigt at ændre vægt, hvis
man er overvægtig til at være 8,344 gange større, end hvis man er normalvægtig. Ligeledes stiger
oddsene for, at man synes det er vigtigt at ændre vægt, hvis man er svært overvægtig til at være
22,874 gange større end hvis man er normalvægtig. Når der kontrolleres for andre faktorer, falder
oddsene for at synes det er vigtigt at ændre vægt, for personerne der er undervægtige til at være
0,502, og der er således mindre odds for, at man synes det er vigtigt at ændre vægt, hvis man er
undervægtig, i forhold til hvis man er normalvægtig.
I forhold til kontrolvariablene viser det sig, at jo ældre man er, jo mindre er oddsene for, at man
synes det er vigtigt at ændre sin vægt. Med hensyn til den psykiske og fysiske tilstand viser der sig
ikke noget entydigt mønster, og nogle af kategorierne er ikke signifikante. I forhold til køn er
oddsene for, at man synes det er vigtigt at ændre vægt 2,377 gange større, hvis man er en kvinde, i
forhold til hvis man er en mand. Ved uddannelse gør det sig gældende, at jo længere videregående
uddannelse man har, jo større er oddsene for at man synes det er vigtigt at ændre vægt, i forhold til
hvis man ingen videregående uddannelse har.
Ligningen for den multiple logistiske regression er:
Log it (π) = log
= α + β1 · x1 + β2 · x2 + · · · · βk · xk
Dem der på baggrund af den multiple logistiske regressionsanalyse vil have de største odds for at
synes det er lidt til meget vigtig at ændre vægt, i forhold til slet ikke at synes det er vigtigt at ændre
sin vægt, vil være en svært overvægtig kvinde i alderen 16-24 år med en noget dårlig psykisk og
fysisk tilstand med en lang videregående uddannelse. Oddsene for denne beregnes til at være: 0,664
x 22,874 x 2,377 x 1,377 x 1,646 x 1,330 x 1,669 = 181,64 gange større end en normalvægtig mand
i alderen 25-44 år med en god psykisk og fysisk tilstand uden en videregående uddannelse.
Side 20 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Tabel 5 – Resultater fra den almindelige logistiske regressionsanalyse
Simpel
B
BMI 18,5- 25 (ref.)
BMI 0-18,49
BMI 25,01-30
BMI 30,01+
Constant
Alder 25-44 (ref.)
Alder 16-24
Alder 45-64
Alder 65+
Psykisktilstand – God (ref.)
Psykisktilstand (1)
Psykisktilstand (2)
Psykisktilstand (3) – dårlig
Fysisktilstand – God (ref.)
Fysisktilstand (1)
Fysisktilstand (2)
Fysisktilstand (3) – dårlig
Køn (ref. =mænd)
Udd. – ingen videreg (ref.)
Udd. – kort videreg
Udd. – ml. videreg.
Udd. – lang videreg
Constant
-,333
1,573
2,682
,446
S.E.
,148
,058
,143
,028
Multipel
Wald
1023,889
5,057
731,212
353,084
252,118
df
3
1
1
1
1
Sig
,000
,025
,000
,000
,000
Exp(B)
,717
4,821
14,615
1,563
B
S.E.
-,689
2,121
3,130
-
,182
,075
,177
-
,320
-,552
-1,178
,102
,067
,098
,479
,498
,248
,071
,088
,112
,101
,285
,129
,866
,075
,089
,093
,061
,356
,459
,512
-,410
,095
,080
,095
,101
Wald
1020,175
14,368
796,598
312,967
220,105
9,756
68,593
145,770
57,528
45,847
32,396
4,917
10,160
1,849
10,158
1,948
202,363
38,623
14,139
32,674
28,954
16,517
df
3
1
1
1
3
1
1
1
3
1
1
1
3
1
1
1
1
3
1
1
1
1
Sig
,000
,000
,000
,000
,000
,002
,000
,000
,000
,000
,000
,027
,017
,174
,001
,163
,000
,000
,000
,000
,000
,000
Exp(B)
,502
8,344
22,874
1,377
,576
,308
1,614
1,646
1,281
1,107
1,330
1,138
2,377
1,428
1,582
1,669
,664
Side 21 af 39
Test og sammenligning af udvalgte regressionsmodeller
3.3
Berit Christina Olsen forår 2008
Anvendelse af multinominal logistisk regression
Ved anvendelsen af en multinominal logistisk regressionsmodel, er der muligt at anvende en
afhængig variabel med flere kategorier end to. Den afhængige variabel vil med anvendelse af denne
regressionsmodel blive behandlet som en nominalskalleret variabel, og der vil således ikke blive
taget hensyn til en eventuel rangorden for kategorierne i variablen. Den afhængige variabel
omhandlende hvor vigtigt det er at ændre vægt, omkodes som tidligere beskrevet til en variabel med
4 kategorier. Det er med den multinominale regressionsanalyse muligt at se på oddsene for hver af
grupperne der synes det lidt vigtigt, noget vigtigt og meget vigtigt at ændre vægt i forhold til slet
ikke at synes at det er vigtigt at ændre vægt, som vil fungere som baseline. Det er derudover muligt
at se på forskellene mellem kategorierne. Ved den simple multinominale regressionsanalyse
sammenlignes oddsene for, hvor vigtigt det er at ændre vægt i forhold til BMI for hver af de fire
kategorier. De normalvægtige med en BMI på 18,5-25 fungerer også her som referencegruppe.
3.3.1
Simpel multinominal regression
Resultaterne fra den simple multinominale regressionsanalyse ses i tabel 6. Det viser sig at alle
kategorierne er signifikante med undtagelse af undervægtige i kategori 3 og 4. Når der ikke
kontrolleres for andre faktorer, er oddsene for at synes det er lidt vigtigt at ændre sin vægt, i forhold
til ikke at synes det er vigtigt at ændre sin vægt, for overvægtige informanter 2,238 gange større end
for normalvægtige informanter. For svært overvægtige er oddsene 2,479 gange større end
normalvægtige informanter. Oddsene for undervægtige informanter er 0,474 og således mindre end
normalvægtige. Overordnet er der således større odds for, at man synes det er lidt vigtigt, noget
vigtigt og meget vigtigt at ændre sin vægt jo højere BMI man har, i forhold til ikke at synes, det er
vigtigt at ændre sin vægt. F.eks. er Oddsene for, at synes det er meget vigtigt at ændre sin vægt, i
forhold til ikke at synes det er vigtigt at ændre sin vægt for svært overvægtige informanter 38,888
gange større end normalvægtige informanter. Der er altså stor forskel på oddsene, og BMI har
således forskellig betydning i for tre grupper.
Side 22 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Tabel 6 – Resultater fra den simple multinominale regressionsanalyse
Vigtigheden af ændring af BMI
2 = lidt vigtigt
Intercept
BMI 0-18,49
BMI 25,01-30
BMI 30,01+
BMI 18,5-25 (ref.)
3 = noget vigtigt Intercept
BMI 0-18,49
BMI 25,01-30
BMI 30,01+
BMI 18,5-25 (ref.)
4 = meget vigtigt Intercept
BMI 0-18,49
BMI 25,01-30
BMI 30,01+
BMI 18,5-25 (ref.)
3.3.2
B
-,376
-,747
,806
,908
0b
-,710
,006
1,623
2,535
0b
-,957
-,247
2,211
3,661
0b
S td.
Error
,034
,216
,070
,176
.
,038
,188
,068
,152
.
,042
,224
,068
,147
.
Wald
119,185
11,972
130,787
26,624
.
344,552
,001
563,820
276,475
.
527,614
1,214
1044,855
615,966
.
df
1
1
1
1
0
1
1
1
1
0
1
1
1
1
0
Sig.
,000
,001
,000
,000
.
,000
,974
,000
,000
.
,000
,271
,000
,000
.
Exp(B)
,474
2,238
2,479
.
1,006
5,067
12,619
.
,781
9,128
38,888
.
Multipel multinominal regression
Ved den multiple multinominale regression inddrages der ligesom ved de andre analyser andre
faktorer alder, psykisk tilstand, fysisk tilstand, køn og videregående uddannelse. Efter inddragelse
af andre faktorer i modellen stiger oddsene i forhold til den simple multinominale analyse for hver
af de tre kategorier. F.eks. er oddsene for at synes det er meget vigtigt at ændre sin vægt, i forhold
til ikke at synes det er vigtigt at ændre sin vægt for svært overvægtige informanter steget til at være
93,749 gange større end normalvægtige informanter. For både kategori 2, 3 og 4 gælder det, at jo
højere BMI jo større odds for at mans synes det er vigtigt at ændre sin vægt.
Med hensyn til de andre faktorer er alder signifikant i alle kategorierne med undtagelse af de 16-24årige, der synes det er lidt vigtigt at ændre vægt. Oddsene for at synes det er lidt vigtigt, noget
vigtigt og meget vigtigt at ændre vægt, i forhold til ikke at synes det er vigtigt at ændre vægt, er for
de 16-24-årige henholdsvis 1,244, 1,474 og 1,488 gange større end for de 25-44-årige. Oddsene for
at synes det er lidt vigtigt, noget vigtigt og meget vigtigt at ændre vægt, i forhold til ikke at synes
det er vigtigt at ændre vægt, er for aldersgrupperne 45-64 år og 65 og derover mindre end for de 2544-årige.
I forhold til den psykiske tilstand er alle kategorierne signifikante, på nær dem med en dårlig
psykisk tilstand der synes, det er lidt vigtigt og noget vigtigt at ændre vægt. Oddsene for at synes
det er lidt vigtigt, noget vigtigt og meget at ændre sin vægt, i forhold til ikke at synes det er vigtigt
at ændre sin vægt, er for alle kategorierne højere end dem med en god psykisk tilstand. Alle
Side 23 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
kategorierne for den fysiske tilstand med undtagelse af dem i fysisk tilstand gruppe 2 der synes, det
er lidt eller noget vigtigt at ændre sin vægt, viser sig at være ikke-signifikante. Det er således ikke
muligt at konkludere noget ud fra den multiple multinominale regressionsanalyse i forhold til den
fysiske tilstand.
Oddsene for at synes det er lidt vigtigt at ændre sin vægt, i forhold til ikke at synes det er vigtigt at
ændre sin vægt, er for kvinder 1,589 gange større, end det er for mænd. Oddsene for at synes det er
noget vigtigt at ændre sin vægt, er for kvinder 2,249 gange større end for mænd. Oddsene for at
synes det er meget vigtigt at ændre sin vægt, er for kvinder 5,183 gange større end for mænd. Køn
har således en forskellig betydning for de tre grupper. Alle kategorierne for uddannelse er
signifikante, og oddsene for at synes det er lidt vigtigt, noget vigtigt og meget vigtigt at ændre sin
vægt, i forhold til ikke at synes det er vigtigt at ændre sin vægt, er for alle kategorierne højere end
dem uden videregående uddannelse.
Ligningen for den multiple multinominale regression er:
Log
= (αj + βj1 · x1 + βj2 · x2 + · · · · βkj · xk )
Som eksempel er oddsene, for at synes det er meget vigtigt at ændre vægt, i forhold til slet ikke at
synes det er vigtigt at ændre vægt for svært overvægtige kvinder i alderen 16-24 med en lidt til
noget dårlig psykisk tilstand med en lang videregående uddannelse lig med Exp(-2,724) x 93,749 x
5,183 x 1,488 x 1,975 x 2,244 = 210,24 gange større end normalvægtige mænd i alderen 25-44 år
med en god psykisk tilstand uden en videregående uddannelse.
Side 24 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Tabel 7 – Resultater fra den multiple multinominale regressionsanalyse
2 = lidt vigtigt
Vigtigheden af ændring af
BMI
Intercept
BMI 0-18, 49
BMI 25,01-30
BMI 30,01+
BMI 18,5- 25 (ref.)
Alder 16-24
Alder 45-64
Alder 65+
Alder 25-44(ref.)
Psykisktilstand (1)
Psykisktilstand (2)
Psykisktilstand (3) – dårlig
Psykisktilstand – God (ref.)
Fysisktilstand (1)
Fysisktilstand (2)
Fysisktilstand (3) – dårlig
Fysisktilstand – God (ref.)
Køn = Kvinder
Køn = Mænd (ref.)
Udd. – kort videreg
Udd. – ml. videreg.
Udd. – lang videreg
Udd. – ingen videreg (ref.)
B
-,823
-,845
1,267
1,276
0b
,218
-,601
-1,049
0b
,384
,401
,030
0b
,093
,339
,106
0b
,463
0b
,278
,405
,393
0b
S td.
Error
,118
,239
,087
,214
.
,117
,077
,116
.
,082
,101
,134
.
,087
,103
,108
.
,071
.
,111
,094
,112
.
Wald
48,970
12,468
211,940
35,709
.
3,490
60,363
81,639
.
21,993
15,793
,051
.
1,141
10,929
,963
.
42,430
.
6,218
18,440
12,348
.
df
1
1
1
1
0
1
1
1
0
1
1
1
0
1
1
1
0
1
0
1
1
1
0
3 = noget vigtigt
Sig.
,000
,000
,000
,000
.
,062
,000
,000
.
,000
,000
,822
.
,285
,001
,326
.
,000
.
,013
,000
,000
.
Exp(B)
,429
3,551
3,583
.
1,244
,548
,350
.
1,469
1,493
1,030
.
1,097
1,403
1,112
.
1,589
.
1,320
1,499
1,481
.
B
-1,535
-,366
2,199
3,131
0b
,388
-,458
-1,131
0b
,445
,481
,258
0b
,118
,290
,133
0b
,810
0b
,300
,440
,440
0b
S td.
Error
,124
,224
,087
,188
.
,121
,079
,120
.
,085
,103
,133
.
,090
,106
,110
.
,073
.
,113
,096
,114
.
Wald
152,305
2,670
638,670
277,279
.
10,263
33,729
88,244
.
27,648
21,745
3,729
.
1,727
7,561
1,445
.
121,563
.
7,030
21,213
14,909
.
df
1
1
1
1
0
1
1
1
0
1
1
1
0
1
1
1
0
1
0
1
1
1
0
4 = meget vigtigt
Sig.
,000
,102
,000
,000
.
,001
,000
,000
.
,000
,000
,053
.
,189
,006
,229
.
,000
.
,008
,000
,000
.
Exp(B)
,694
9,013
22,904
.
1,474
,633
,323
.
1,561
1,618
1,294
.
1,125
1,337
1,142
.
2,249
.
1,350
1,552
1,553
.
B
-2,724
-,889
3,167
4,541
0b
,398
-,581
-1,415
0b
,681
,680
,555
0b
,105
,196
,143
0b
1,645
0b
,566
,574
,808
0b
S td.
Error
,138
,285
,092
,188
.
,129
,081
,127
.
,089
,108
,137
.
,094
,111
,115
.
,078
.
,118
,101
,119
.
Wald
389,794
9,719
1181,122
584,209
.
9,455
50,851
123,585
.
58,583
39,951
16,336
.
1,245
3,109
1,555
.
446,405
.
23,004
32,263
46,432
.
df
1
1
1
1
0
1
1
1
0
1
1
1
0
1
1
1
0
1
0
1
1
1
0
Sig.
,000
,002
,000
,000
.
,002
,000
,000
.
,000
,000
,000
.
,265
,078
,212
.
,000
.
,000
,000
,000
.
Side 25 af 39
Exp(B)
,411
23,740
93,749
.
1,488
,560
,243
.
1,975
1,975
1,742
.
1,111
1,216
1,154
.
5,183
.
1,760
1,775
2,244
.
Test og sammenligning af udvalgte regressionsmodeller
3.4
Berit Christina Olsen forår 2008
Anvendelse af ordinal logistisk regression
Den ordinale regressionsmodel kan anvendes i tilfælde, hvor den afhængige variabel er en
ordinalskalleret variabel. Dette vil sige at kategorierne i variablen kan rangordnes. Ved den ordinale
regressionsanalyse beregnes oddsene for kategorierne kumulativt. I forhold til den afhængige
variabel om hvor vigtigt er det at ændre vægt, sammenlignes først at det ’ikke er vigtigt’ med at det
er ’lidt vigtigt’, ’noget vigtigt’ og ’meget vigtigt’. Dernæst sammenlignes ’ikke vigtigt’ og ’lidt
vigtigt’ med ’noget vigtigt’ og ’meget vigtigt’. Sidst sammenlignes ’ikke vigtigt’, ’lidt vigtigt’ o g
’noget vigtigt’ med ’meget vigtigt’.
Det er et krav i forhold til anvendelse af den ordinale regressionsmodel, at den uafhængige variabel
har lige stor betydning for de forskellige kategorier på den afhængige variabel. Det vil sige, at BMI
og de andre inddragede faktorer har lige stor betydning for de fire kategorier på variablen, om hvor
vigtigt det er at ændre vægt.
Ligning for den ordinale regression er: Log it (P(Y≤ j)) = (αj + β1 · x1 + β2 · x2 + · · · · βk · xk )
Resultatet for den simple og multiple ordinale regression ses i tabel 8. Inden der kontrolleres for
andre faktorer, er oddsene for den simple ordinale regressionsanalyse for konstanterne for de tre
ovenstående sammenligninger på henholdsvis 0,631, 1,895 og 6,246. Oddsene for BMI kategorierne
er de samme for de tre sammenligninger. Oddsene er for de undervægtige 0,865, for de overvægtige
4,433 og for de svært overvægtige 11,101 i forhold til de normalvægtige. Ved den multiple ordinale
regressionsanalyse falder oddsene for de undervægtige til 0,587, og stiger for de overvægtige og
svært overvægtige til henholdsvis 6,903 og 16,265. De undervægtige er dog ikke signifikante ved
hverken den simple eller den multiple ordinale regressionsanalyse. Ved den multiple
regressionsanalyse er alle de inddragede variable signifikante med undtagelse af fysisk tilstand.
Den multinominale regressionsanalyse viste, at der var stor forskel på både BMI og de andre
faktorer i forhold til kategorierne på den afhængige variabel, om hvorvidt informanterne synes det
er vigtigt at ændre vægt. Da kravet for den ordinale regressionsanalyse netop er at de uafhængige
variable skal have samme betydning for alle kategorierne på den afhæ ngige variabel, vil det således
være misvisende at anvende en ordinal regressionsmodel. Resultaterne fra den ordinale
regressionsanalyse vil derfor ikke blive beskrevet yderligere.
Side 26 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Tabel 8 – Resultater fra den ordinale regressionsanalyse
Exp(B)
Threshold Ændring af vægt = 1
Ændring af vægt = 2
Ændring af vægt = 3
Location BMI 0-18, 49
BMI 25,01-30
BMI 30,01+
BMI 18,5- 25 (ref.)
Alder 16-24
Alder 45-64
Alder 65+
Alder 25-44 (ref.)
Psykisktilstand (1)
Psykisktilstand (2)
Psykisktilstand (3) – dårlig
Psykisktilstand – God (ref.)
Fysisktilstand (1)
Fysisktilstand (2)
Fysisktilstand (3) – dårlig
Fysisktilstand – God (ref.)
Køn = Kvinder
Køn = Mænd (ref.)
Udd. – kort videreg
Udd. – ml. videreg.
Udd. – lang videreg
Udd. – ingen videreg (ref.)
0,631
1,895
6,246
0,865
4,433
11,101
.
Estimate
-,461
,639
1,832
-,145
1,489
2,407
0a
Std.
Error
,027
,027
,033
,135
,041
,065
.
Wald
290,908
542,778
3148,039
1,159
1331,127
1390,065
.
df
1
1
1
1
1
1
0
Sig.
,000
,000
,000
,282
,000
,000
.
Exp(B)
1,492
5,344
20,186
0,587
6,903
16,265
.
1,313
0,740
0,430
.
1,446
1,468
1,441
.
1,090
1,092
1,121
.
2,625
.
1,380
1,390
1,597
.
Estimate
,400
1,676
3,005
-,532
1,932
2,789
0a
,272
-,301
-,844
0a
,369
,384
,365
0a
,086
,088
,114
0a
,965
0a
,322
,329
,468
0a
Std.
Error
,077
,079
,083
,159
,049
,077
.
,073
,047
,074
.
,051
,061
,080
.
,055
,063
,066
.
,044
.
,069
,058
,069
.
Wald
27,167
454,032
1305,162
11,126
1559,483
1322,078
.
13,773
41,745
129,754
.
51,973
39,394
20,520
.
2,433
1,962
2,951
.
489,863
.
22,051
31,764
46,240
.
df
1
1
1
1
1
1
0
1
1
1
0
1
1
1
0
1
1
1
0
1
0
1
1
1
0
Sig.
,000
,000
,000
,001
,000
,000
.
,000
,000
,000
.
,000
,000
,000
.
,119
,161
,086
.
,000
.
,000
,000
,000
.
Side 27 af 39
Test og sammenligning af udvalgte regressionsmodeller
4
Berit Christina Olsen forår 2008
Sammenligning af modeller
I det følgende afsnit vil resultaterne fra alle regressionsanalyserne blive sammenlignet herunder
fordele og ulemper ved anvendelse af de forskellige regressionsmodeller, samt hvorvidt det er mest
hensigtsmæssigt at anvende en type regressionsmodel ved en bestemt problemstilling frem for en
anden. Derudover sammenlignes hvorvidt variablernes målingsniveau maksimeres, og i hvilket
omfang der sker tab af data ved anvendelsen af regressionsmodellerne. Værdierne fra de forskellige
regressionsanalyser er samlet i tabel 9. Disse er B- værdierne fra den lineære regressionsanalyse,
Exp(B) fra de logistiske regressionsanalyser.
Antages det, at den afhængige variabel omhandlende hvor vigtigt det er at ændre vægt, er en
intervalskalleret variabel, er det muligt at anvende den lineære regressionsanalyse, da dette er et
krav for at anvende denne regressionsmodel. Da der ikke er foretaget nogle sammenlægninger af
kategorier, går der ikke data tabt, og fordelen er, at der udnyttes så meget information fra variablen
som muligt. Ved brugen af den lineære regressionsmodel er det muligt at estimere en lineær ligning
for sammenhængen mellem to variable. Det er ikke muligt at se, hvorvidt der er en forskel på
sammenhængen ved for eksempel forskellige aldersgenerationer eller BMI- grupper, med mindre
variablen omdannes til dummyvariable. Ved anvendelsen af den intervalskallerede aldersvariabel
kunne det ud fra den lineærregressionsanalyse tyde på, at jo ældre man er, jo vigtigere synes man
det er at ændre vægt. Ved i stedet at anvende dummyvariable for fire alderskategorier viste det sig,
at dette ikke var tilfældet. Ved anvendelse af forskellige mål, er det dermed muligt at få forskellige
resultater.
Af de fire regressionsmodeller der er blevet anvendt til at analysere sammenhængen mellem BMI
og vigtigheden af at ændre vægt, er den lineære regressionsmodel den model, hvor der stilles de
største krav til de inddragede variable. Opfylder variablene kravene og er sammenhængen mellem
disse lineær, er det ved anvendelse af lineær regression muligt at udnytte dataene optimalt. Oftest er
sammenhængen mellem to variable dog ikke fuldstændig lineær, hvilket kan medvirke til en
fejlslutning. På baggrund af analysen tyder det på, at dette er tilfældet for sammenhængen mellem
BMI, og hvor vigtigt man synes det er at ændre vægt. Det vil derfor være fejlagtigt blot at
konkludere på den lineære regressionsanalyse.
Til en almindelig logistisk regressionsanalyse stilles der færre krav til variable ne end ved den
lineære regressionsanalyse. Der er intet krav om en bestemt type af sammenhæng mellem
Side 28 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
variablene, da det er oddsene for de forskellige kategorier, der beregnes. Det er derudover ikke
nødvendigt som ved den lineære regressionsanalyse, at variablene er intervalskalerede, men det er
et krav, at den afhængige variabel er dikotom. Idet der kun må være to kategorier i den afhængige
variabel, er det kun muligt at sammenligne oddsene for disse, og analysen forsimples dermed. Idet
mange kategorier slås sammen, går en stor mængde data tabt. Dette er imidlertid ikke et problem,
hvis man blot ønsker at undersøge oddsene for en enkelt gruppe, som for eksempel de synes det er
lidt til meget vigtig at ændre vægt, i forhold til de der slet ikke synes, det er vigtigt at ændre vægt. I
modsætning til den lineære regressionsanalyse må de uafhængige variable være ordinal eller
nominal skallerede, og det er således muligt at sammenligne kategorier som for eksempel
aldersgenerationer og BMI-kategorierne. Variablene behandles dog i analysen som nominale og en
eventuel rangorden i variablen, mister således sin betydning, og der går også her data tabt.
Fordelen ved anvendelsen af en logistisk regressionsanalyse er således, at der kun stilles få krav til
variablene. Der er derudover muligt at beregne oddsene for en person med bestemte karakteristika i
forhold til de inddragede variable. En ulempe kan dog være, at der går data tabt ved anvendelsen af
variable, der oprindeligt er interval eller ordinal skallerede.
Da det ved anvendelse af den multinominale regressionsmodel er tilladt, at den afhængige variabel
indeholder mere end to kategorier, er det muligt at lave en mere detaljeret analyse og få mere ud af
sine data i forhold til den almindelige logistiske regression, hvor den afhængige variabel er
dikotom. Det er her muligt at se på oddsene inden for hver af de enkelte kategorier på den
afhængige variabel. Ved den multinominale regressionsanalyse beregnes oddsene således for tre
kategorier, der synes, det er lidt, noget eller meget vigtigt at ændre vægt i forhold til slet ikke synes
det er vigtigt at ændre vægt i stedet for de tre kategorier slået sammen, som ved den almindelige
logistiske regressionsanalyse.
Sammenlignes oddsene for at synes det er vigtigt at ændre vægt, i forhold til slet ikke at synes det er
vigtigt at ændre vægt, er dette ved anvendelse af den almindelig multiple logistiske regression på
22,874 for dem med en BMI på over 30. Ved anvendelse af multipel multinominal regression er
oddsene for dem der synes det er lidt, noget og meget vigtigt at ændre vægt på henholdsvis 3,583,
22,904 og 93,749. Oddsene er meget forskellige for de tre grupper, og den multinominale
regressionsanalyse giver således et mere nuanceret billede af sammenhængen mellem de to
variable. Det samme gør sig gældende for køn, hvor oddsene for kvinder er 2,377 ved den multiple
Side 29 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
logiske regression, og hvor oddsene for kvinder i de tre kategorier ved den multiple multinominale
regressionsanalyse er på henholdsvis 1,589, 2,249 og 5,183. Ulempen kan ved anvendelse af den
multinominale regressionsmodel være, at outputtet fra analysen hurtig bliver uoverskuelig, hvis den
afhængige variabel har mange kategorier, og der inddrages mange variable.
Den ordinale regressionsmodel kan anvendes i de tilfælde, hvor den afhængige variabel er
ordinalskalleret. Fordelen ved anvendelse af en ordinal regressionsmodel er at kategorierne på den
afhængige variabel sammenlignes på forskellig måde i samme model, og der tages højde for at
variablen er ordinal. Dog har de uafhængige variable samme betydning, uafhængigt af hvilke
kategorier der sammenlignes. Da det på baggrund af den multinominale regressionsanalyse viste
sig, at dette ikke er tilfældet, vil det med denne viden således være fejlagtigt kun at konklude re på
den ordinale regressionsanalyse.
Side 30 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
Tabel 9 – Oversigt over resultaterne fra regressionsanalyserne
Lineær – B
Simpel
BMI interval
BMI 0-18, 49
BMI 25,01-30
BMI 30,01+
BMI 18,5- 25 (ref.)
Alder interval
Alder 16-24
Alder 45-64
Alder 65+
Alder 25-44(ref.)
Psykisk tilstand interval
Psykisktilstand (1)
Psykisktilstand (2)
Psykisktilstand (3) – dårlig
Psykisktilstand – God (ref.)
Fysisk tilstand interval
Fysisktilstand (1)
Fysisktilstand (2)
Fysisktilstand (3) – dårlig
Fysisktilstand – God (ref.)
Køn = Kvinder
Køn = Mænd (ref.)
Udd. interval
Udd. – kort videreg
Udd. – ml. videreg.
Udd. – lang videreg
Udd. – ingen videreg (ref.)
,398
Logistisk – Exp(B)
Multipel
Simpel
Multipel
Multinominal – Exp(B)
Simpel
(2)
Simpel
(3)
Simpel
(4)
Multipel
(2)
Ordinal – Exp(B)
Multipel
(3)
Multipel
(4)
Simpel
Multipel
,451
,717
4,821
14,615
,031
,585
-,445
- 1,278
,502
8,344
22,874
,474
2,238
2,479
1,006
5,067
12,619
,781
9,128
38,888
,429
3,551
3,583
,694
9,013
22,904
,411
23,740
93,749
0,865
4,433
11,101
0,587
6,903
16,265
1,377
,576
,308
1,244
,548
,350
1,474
,633
,323
1,488
,560
,243
1,313
0,740
0,430
1,614
1,646
1,281
1,469
1,493
1,030
1,561
1,618
1,294
1,975
1,975
1,742
1,446
1,468
1,441
1,107
1,330
1,138
1,097
1,403
1,112
1,125
1,337
1,142
1,111
1,216
1,154
1,090
1,092
1,121
2,377
1,589
2,249
5,183
2,625
1,428
1,582
1,669
1,320
1,499
1,481
1,350
1,552
1,553
1,760
1,775
2,244
1,380
1,390
1,597
,088
,014
1,624
,048
Side 31 af 39
Test og sammenligning af udvalgte regressionsmodeller
5
Berit Christina Olsen forår 2008
Opsamling
Til at måle sammenhængen mellem hvorvidt befolkningen i Region Nordjylland ønsker at ændre
vægt og deres BMI, er det på baggrund af de forskellige regressionsanalyser således
hensigtsmæssigt at vælge nogle regressionsmodeller frem for andre. Da det kan diskuteres, hvorvidt
den afhængige variabel er intervalskalleret, og sammenhængen mellem de to variable ikke er
lineær, kan det således argumenteres for, at det vil være en fejl at anvende den lineære
regressionsmodel. Eftersom de uafhængige variable har forskellig betydning for kategorierne på den
afhængige variabel, er det også uhensigtsmæssigt at anvende den ordinale regressionsmodel.
Den almindelige logistiske regressionsmodel kan derimod med fordel anvendes til at analysere
sammenhængen mellem de to variable. Ved anvendelse af denne model er det dog kun muligt at
anvende den afhængige variabel som dikotom. Ved anvendelse af den multinominale
regressionsmodel kan man som nævnt anvende en afhængig variabel med flere kategorierne end to,
hvorved det er muligt at se, om der er forskel på oddsene, og dermed om de uafhængige variable har
forskellig betydning for kategorierne på den afhængige variabel. Dette er netop tilfældet, med
sammenhængen mellem hvorvidt informanterne synes det er vigtigt at ændre vægt og BMI samt de
andre faktorer.
Det er ved hjælp af de forskellige regressionsmode ller således muligt at analysere den givne
problemstilling på forskellige måder, ved at omkode variablene og derved anvende forskellige mål i
analyserne
og således også få forskellige resultater. Overordnet viser de forskellige
regressionsanalyser dog de samme tendenser, i forhold til sammenhængen mellem hvor vigtigt
informanterne synes det er at ændre vægt og BMI og andre faktorer. Dette kan skyldes valget af
problemstilling, og et andet resultat ville muligvis være fremkommet, hvis der var taget
udgangspunkt i en anden problemstilling.
På baggrund af analyserne kan det tyde på, at den afhængige variabel om hvor vigtigt man synes det
er at ændre vægt, ikke opfattes på samme måde af informanterne, og at denne ikke kan defineres
som en differential intervalskalleret variabel. Det kan dermed argumenteres for, at variablen er en
ordinalskalleret variabel, og den bør derfor også analyseres som dette ved hjælp af en model, der
behandler variablen ordinalt eller nominalt. Det er således vigtigt at gøre sig mange metodiske
overvejelser når en problemstilling analyseres ved hjælp af en regressionsmodel herunder type af
variabel, problemstillingens karakter, hvordan variablen måles og sidst valg af model.
Side 32 af 39
Test og sammenligning af udvalgte regressionsmodeller
6
Berit Christina Olsen forår 2008
Litteraturliste
Agresti, Alan og Finlay, Barbara (1997): Statistical Methods for the Social Sciences. New
Jersey: Prentice-Hall, Inc Pearson Education
de Vaus, David (2002): Surveys in Social Research, 5. udgave. London: Routledge.
Indenrigs- og Sundhedsministeriet (2005): En forstærket indsats mod svær overvægt.
København: Ministeriet for Familie- og Forbrugeranliggender.
Region Nordjylland (2007): Sådan står det til med sundheden i Nordjylland –
Sundhedsprofil for Region Nordjylland og 11 nordjyske kommuner. Aalborg: Region
Nordjylland.
Side 33 af 39
Test og sammenligning af udvalgte regressionsmodeller
7
Berit Christina Olsen forår 2008
Bilag - SPSS programmering
/* Dannelse af de to indeks psykisk og fysisk tilstand med factor analyse og reliabilitetstest
FACTOR
/VARIABLES Q9_1 Q9_2 Nedslidt Træt /MISSING LISTWISE /ANALYSIS Q9_1 Q9_2
Nedslidt Træt
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/CRITERIA ITERATE(25) DELTA(0)
/ROTATION OBLIMIN
/METHOD=CORRELATION .
RELIABILITY
/VARIABLES=Q9_1 Q9_2 Nedslidt Træt
/SCALE('ALL VARIABLES') ALL/MODEL=ALPHA
/STATISTICS=DESCRIPTIVE SCALE CORR .
FACTOR
/VARIABLES Q8_1 Q8_2 Q8_3 Q8_4 Q8_5 /MISSING LISTWISE /ANALYSIS Q8_1 Q8_2
Q8_3 Q8_4 Q8_5
/PRINT INITIAL KMO EXTRACTION ROTATION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/CRITERIA ITERATE(25) DELTA(0)
/ROTATION OBLIMIN
/METHOD=CORRELATION .
RELIABILITY
/VARIABLES=Q8_1 Q8_2 Q8_3 Q8_4 Q8_5
/SCALE('ALL VARIABLES') ALL/MODEL=ALPHA
/STATISTICS=DESCRIPTIVE SCALE CORR .
/*Dannelse af variabel for ængstelse, angst, håbløshed, nedtrykt, bekymringer
COMPUTE Ængstelse_angst_håbløshed_nedtrykt_bekymringer = Q8_1 + Q8_2 + Q8_3 +
Q8_4 + Q8_5 .
VARIABLE LABELS Ængstelse_angst_håbløshed_nedtrykt_bekymringer
'Ængstelse_angst_håbløshed_nedtrykt_bekymringer' .
EXECUTE .
/*Dannelse af variabel for fysisktilstand
COMPUTE Liv_energi_nedslidt_træt = Q9_1 + Q9_2 + Nedslidt + Træt .
VARIABLE LABELS Liv_energi_nedslidt_træt 'Liv_energi_nedslidt_træt' .
EXECUTE .
Side 34 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
/***********************************************************************
/*Regressioner
/*Simpel lineær regression
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Q28
/METHOD=ENTER BMI.
/* Anvendte variable:
Q28 = Ændring af vægt intervalskalleret
BMI = BMI intervalskalleret
/* Filter der kun medtager kvinder
USE ALL.
COMPUTE filter_$=(Køndik = 1).
VARIABLE LABEL filter_$ 'Køndik = 1 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.
/* Anvendte variable:
Køndik = Køn som dikotom 0-1 variabel
/* Filter der kun medtager mænd
USE ALL.
COMPUTE filter_$=(Køndik = 0).
VARIABLE LABEL filter_$ 'Køndik = 0 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.
/* Dannelse af interaktionsled
COMPUTE InteraktionKønBMI=Køndik * BMI.
EXECUTE.
/*Multipel lineær regression med alder som intervalskalleret
REGRESSION
/MISSING LISTWISE
Side 35 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Q28
/METHOD=BACKWARD BMI Alderrekodet Ængstelse_angst_håbløshed_nedtrykt_bekymringer
Liv_energi_nedslidt_træt Køndik Q49 InteraktionKønBMI.
/*Anvendte variable:
Alderrekodet = Alder som intervalskalleret
Ængstelse_angst_håbløshed_nedtrykt_bekymringer = Indeks for psykisk tilstand som
intervalskalleret
Liv_energi_nedslidt_træt = Indeks for fysisk tilstand som intervalskalleret
Q49 = Videregående uddannelse antal år intervalskalleret
InteraktionKønBMI = Interaktionsled med Køn og BMI
/* Dannelse af dummy- variable
RECODE alder4 (1=1) (ELSE=0) INTO Alderdummy1624.
VARIABLE LABELS Alderdummy1624 'Alderdummy1624'.
EXECUTE.
RECODE alder4 (2=1) (ELSE=0) INTO Alderdummy2544.
VARIABLE LABELS Alderdummy2544 'Alderdummy2544'.
EXECUTE.
RECODE alder4 (3=1) (ELSE=0) INTO Alderdummy4564.
VARIABLE LABELS Alderdummy4564 'Alderdummy4564'.
EXECUTE.
RECODE alder4 (4=1) (ELSE=0) INTO Alderdummy65.
VARIABLE LABELS Alderdummy65 'Alderdummy65'.
EXECUTE.
/* Multipel lineær regression med alder som dummyvariable samt endelig model
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Q28
/METHOD=BACKWARD BMI Alderdummy1624 Alderdummy2544 Alderdummy4564
Alderdummy65
Ængstelse_angst_håbløshed_nedtrykt_bekymringer Liv_energi_nedslidt_træt Køndik Q49
InteraktionKønBMI.
/* Rekodninger til anvendelse ved den Logistiske regression
/* Rekodning af BMI til 4 kategorier
Side 36 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
RECODE
BMI
(0 thru 18.49=2) (18.5 thru 25=1) (25.01 thru 30=3) (30.01 thru 72=4)
INTO BMI4katlog .
VARIABLE LABELS BMI4katlog 'BMI4katlog'.
EXECUTE .
RECODE BMI4katlog (1=4) (2=1) (3=2) (4=3) INTO LogisBMI4kat.
VARIABLE LABELS LogisBMI4kat 'LogisBMI4kat'.
EXECUTE.
RECODE alderlog (1=4) (2=1) (3=2) (4=3) INTO Logisa lder4kat.
VARIABLE LABELS Logisalder4kat 'Logisalder4kat'.
EXECUTE.
RECODE Psykisktilstandkat4 (1=4) (2=1) (3=2) (4=3) INTO Logispsykiskkat4.
VARIABLE LABELS Logispsykiskkat4 'Logispsykiskkat4'.
EXECUTE.
RECODE Fysisktilstandkat4 (1=4) (2=1) (3=2) (4=3) INTO Logisfysiskkat4.
VARIABLE LABELS Logisfysiskkat4 'Logisfysiskkat4'.
EXECUTE.
RECODE Videregåendeudd4kat (1=4) (2=1) (3=2) (4=3) INTO Logisuddkat4.
VARIABLE LABELS Logisuddkat4 'Logisuddkat4'.
EXECUTE.
/* Simpel almindelig logistisk regression
LOGISTIC REGRESSION VARIABLES Ændringafvægt2kat
/METHOD=ENTER LogisBMI4kat
/CONTRAST (LogisBMI4kat)=Indicator
/CRITERIA=PIN(.05) POUT(.10) ITERATE(20) CUT(.5).
/* Anvendte variable:
Ændringafvægt2kat = Ændring af vægt som dikotom
LogisBMI4kat = BMI med 4 kategorier
/* Multipel almindelig logistisk regression
LOGISTIC REGRESSION VARIABLES Ændringafvægt2kat
/METHOD=ENTER LogisBMI4kat Logisalder4kat Logispsykiskkat4 Logisfysiskkat4 Køndikny
Logisuddkat4
/CONTRAST (Køndikny)=Indicator
/CONTRAST (Logisfysiskkat4)=Indicator
/CONTRAST (LogisBMI4kat)=Indicator
/CONTRAST (Logisuddkat4)=Indicator
/CONTRAST (Logisalder4kat)=Indicator
/CONTRAST (Logispsykiskkat4)=Indicator
/CRITERIA=PIN(.05) POUT(.10) ITERATE(20) CUT(.5).
Side 37 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
/* Anvendte variable:
Logisalder4kat = alder i 4 kategorier
Logispsykiskkat4 = Psykisk tilstand i 4 kategorier
Logisfysiskkat4 = Fysisk tilstand i 4 kategorier
Logisuddkat4 = Videregående uddannelse i 4 kategorier
/* Rekodning af Ændring af vægt til variabel med 4 kategorier
RECODE Q28 (1=1) (2 thru 5=2) (6 thru 8=3) (9 thru 11=4) INTO Ændringafvægt4kat.
VARIABLE LABELS Ændringafvægt4kat 'Ændringafvægt4kat'.
EXECUTE.
/* Simpel multinominal regression
NOMREG Ændringafvægt4kat (BASE=FIRST ORDER=ASCENDING) BY LogisBMI4kat
/CRITERIA CIN(95) DELTA(0) MXITER(100) MXSTEP(5) CHKSEP(20) LCONVERGE(0)
PCONVERGE(0.000001)
SINGULAR(0.00000001)
/MODEL
/STEPWISE=PIN(.05) POUT(0.1) MINEFFECT(0) RULE(SINGLE) ENTRYMETHOD(LR)
REMOVALMETHOD(LR)
/INTERCEPT=INCLUDE
/PRINT=PARAMETER SUMMARY LRT CPS STEP MFI.
/* Anvendte variable:
Ændringafvægt4kat = Ændring af vægt i 4 kategorier
/* Multipel multinominal regression
NOMREG Ændringafvægt4kat (BASE=FIRST ORDER=ASCENDING) BY LogisBMI4kat
Logisalder4kat
Logispsykiskkat4 Logisfysiskkat4 Køndikny Logisuddkat4
/CRITERIA CIN(95) DELTA(0) MXITER(100) MXSTEP(5) CHKSEP(20) LCONVERGE(0)
PCONVERGE(0.000001)
SINGULAR(0.00000001)
/MODEL
/STEPWISE=PIN(.05) POUT(0.1) MINEFFECT(0) RULE(SINGLE) ENTRYMETHOD(LR)
REMOVALMETHOD(LR)
/INTERCEPT=INCLUDE
/PRINT=FIT PARAMETER SUMMARY LRT CPS STEP MFI.
/* Simpel ordinal regression
PLUM Ændringvægtordinal BY LogisBMI4kat
/CRITERIA=CIN(95) DELTA(0) LCONVERGE(0) MXITER(100) MXSTEP(5)
PCONVERGE(1.0E-6) SINGULAR(1.0E-8)
/LINK=LOGIT
/PRINT=FIT PARAMETER SUMMARY
/SAVE=ESTPROB.
Side 38 af 39
Test og sammenligning af udvalgte regressionsmodeller
Berit Christina Olsen forår 2008
/* Multipel ordinal regression
PLUM Ændringvægtordinal BY LogisBMI4kat Logisalder4kat Logispsykiskkat4 Logisfysiskkat4
køndikny
Logisuddkat4
/CRITERIA=CIN(95) DELTA(0) LCONVERGE(0) MXITER(100) MXSTEP(5)
PCONVERGE(1.0E-6) SINGULAR(1.0E-8)
/LINK=LOGIT
/PRINT=FIT PARAMETER SUMMARY.
LOGISTIC REGRESSION VARIABLES Ændringafvægt2kat
/METHOD=ENTER LogisBMI4kat
/CRITERIA=PIN(.05) POUT(.10) ITERATE(20) CUT(.5).
Side 39 af 39