Download Report

Bachelorafhandling af:
Martin Thrane Pedersen
Eksamensnummer: 201207910
Marc Hartung Eskildsen
Eksamensnummer: 20113770
Vejleder: Michael Christensen
Morningstar Ratings and
Mutual Funds
An empirical study of Morningstar ratings in the Danish equity fund industry from 2004 to 2014
Maj 2015
Antal anslag: 118.146
Aarhus Universitet
Business and Social Sciences
Institut for Økonomi
Abstract
The mutual fund industry has experienced tremendous growth throughout the last decade both
in the sheer number of funds and in capital invested. The literature pays extensive attention to
the many aspects of investing in mutual funds. Research suggests that investors take Morningstar
ratings into consideration when trying to pick well performing funds, resulting in higher in-flow
to higher rated funds. But can the positive relationship between in-flow and ratings be reasoned
by the fact that higher rated funds outperform lower rated funds in the following periods? Do
the ratings really possess predictive power?
Empirically, this highly popular 5-star rating system has received much attention by, among others, Blake & Morey in 2000 and Morey & Gottesmann in 2006. So far, no studies have researched
the area of Morningstar ratings and mutual fund performance solely in the Danish equity fund
industry. This thesis incorporates diﬀerent elements of previous studies to explore the Morningstar ratings in Denmark. While an analysis of the predictive power is the main subject, a number
of methods are employed to shed light on diﬀerent sub-areas of the ratings in order to present
an exhaustive analysis. Our 10-year dataset consists of monthly observations on the 187 Danish
equity funds that were rated by Morningstar in October 2004. We find that the 4- and 5-star
funds on average tended to receive a positive net in-flow of cash, while the lower rated funds
experienced an out-flow. These results are in alignment with the findings from previous studies
of foreign funds. This further increases the relevance of our thesis.
Two completely diﬀerent methods were employed to assess the level of persistency in the ratings.
Where the first is based on contingency tables, the second models the development of ratings
into transition matrices. To ensure robustness, both are conducted over various time horizons.
Calculating and assigning the Morningstar ratings is an elaborate process, as it involves utility
theory and several other factors. Therefore, we wish to see whether ratings based on less structural models create diﬀerent distributions of stars. These alternative measures, based on CAPM,
Carhart’s 4-factor model and the Sharpe Ratio, are also employed in the tests for predictive
power. The ratings’ predictive power is assessed by looking at their ability to predict a monotonic relationship between the five rating groups. Furthermore, the ability to identify the best
performing funds is assessed by comparing Morningstar’s 5-star group with those of the alternative predictors. We once again apply two methods to ensure robustness. One is based on a
3-year out-of-sample method used by Blake & Morey in 2000. The other is based on a test for
monotonicity in asset returns using periods of only one month. To obtain a relevant comparison
for Morningstar in both methods, 3-year rating distributions are created using the alternative
measures. All out-of-sample returns are adjusted using the three same measures.
i
The analysis of persistency in ratings yielded somewhat contradicting results, but seemed to
suggest unstable ratings. The comparison of the full Morningstar ratings with ratings based on
the three alternative measures showed a high degree of consensus of funds’ past performance,
resulting in overall equal distributions. Of all four rating systems, Morningstar was the only
one not able to predict a monotonic relationship in risk-adjusted returns. Concerning the 5-star
groups, we found no evidence that Morningstar was able to outperform any of the three alternative
predictors. None of the four rating methodologies show persuasive performance. Combined, these
results lead to the overall conclusion that the frequently fluctuating Morningstar ratings were not
able to predict performance in the period from 2007 to 2014.
ii
Indhold
1 Indledning
1
1.1
Problemformulering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Afgrænsning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3
Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4
Begreber og definitioner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2 Baggrund og teoretisk motivation
4
2.1
Litteraturgennemgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.2
Morningstars ratingmetodologi . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.3
Baggrund for hypoteser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
3 Datagrundlag
3.1
3.2
9
Investeringsforeninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3.1.1
Survivorship bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
3.1.2
Omkostninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
3.1.3
Flow data
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Benchmarks og faktorer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
4 Metodisk grundlag
13
4.1
Kapital in-flow på tværs af stjernegrupper . . . . . . . . . . . . . . . . . . . . . .
13
4.2
Persistens i ratings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
4.2.1
Antalstabeller på tværs af tid . . . . . . . . . . . . . . . . . . . . . . . . .
13
4.2.2
Estimering af overgangsmatricer . . . . . . . . . . . . . . . . . . . . . . .
15
Asset pricing modeller og performancemål . . . . . . . . . . . . . . . . . . . . . .
17
4.3.1
Capital Asset Pricing Model . . . . . . . . . . . . . . . . . . . . . . . . . .
17
4.3.2
Fama-Frenchs 3-faktor model . . . . . . . . . . . . . . . . . . . . . . . . .
18
4.3.3
Carharts 4-faktor model . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
4.3.4
Sharpe Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
4.3.5
Kritik af valgte asset pricing modeller og performancemål . . . . . . . . .
19
4.3.6
Beregning af den danske SMB-, HML- og WML-faktor
. . . . . . . . . .
21
4.4
Ratings baseret på valgte performancemål . . . . . . . . . . . . . . . . . . . . . .
23
4.5
Morningstar ratings’ forudsigelsesevne . . . . . . . . . . . . . . . . . . . . . . . .
24
4.5.1
Forudsætninger for regressionsanalyse . . . . . . . . . . . . . . . . . . . .
24
4.5.2
Analyse af periodevis performance . . . . . . . . . . . . . . . . . . . . . .
26
4.5.3
Test af performance ved månedlig reparametrisering . . . . . . . . . . . .
30
4.3
iii
5 Empiriske resultater
35
5.1
In-flow på tværs af grupper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
5.2
Persistens i ratings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
5.2.1
Antalstabeller på tværs af tid . . . . . . . . . . . . . . . . . . . . . . . . .
36
5.2.2
Estimerede overgangsmatricer . . . . . . . . . . . . . . . . . . . . . . . . .
37
5.2.3
Delkonklusion for persistens i ratings . . . . . . . . . . . . . . . . . . . . .
39
5.3
Ratings baseret på alternative performancemål . . . . . . . . . . . . . . . . . . .
39
5.4
Morningstar ratings’ forudsigelsesevne . . . . . . . . . . . . . . . . . . . . . . . .
40
5.4.1
Periodevis performance . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
5.4.2
Test af performance ved månedlig reparametrisering . . . . . . . . . . . .
43
5.4.3
Delkonklusion på analyse af forudsigelsesevne . . . . . . . . . . . . . . . .
45
6 Konklusion
46
7 Diskussion og perspektivering
48
7.1
Diskussion af resultater . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
7.2
Perspektivering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
References
50
iv
Figurer
5.1
CAPM vs. Morningstar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
Tabeller
4.1
SMB- og HML-porteføljer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4.2
Tidsperioder for 3-års test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
5.1
Månedligt kapital in-flow for Morningstargrupper . . . . . . . . . . . . . . . . . .
35
5.2
Antalstabeller: Start- og slutrating . . . . . . . . . . . . . . . . . . . . . . . . . .
36
5.3
Antal skift mellem ratinggrupper . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
5.4
1 måneds overgangsmatrice, % sandsynligheder . . . . . . . . . . . . . . . . . . .
38
5.5
Fastholdelsessandsynligheder, % . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
5.6
Morningstar ratingtildeling vs. alternative ratingtildelinger . . . . . . . . . . . . .
40
5.7
Relativ performancemåling med 5-stjernede referencegrupper . . . . . . . . . . .
41
5.8
Relativ performancemåling med varierende referencegrupper . . . . . . . . . . . .
42
5.9
5-stjernet performance på tværs af ratingsystemer . . . . . . . . . . . . . . . . . .
43
5.10 Test af monotont forhold: Risikojusteret vha. CAPM og 4-faktor . . . . . . . . .
44
5.11 Morningstars 5-stjernede gruppe vs. de tre alternative predictors’ . . . . . . . . .
45
v
Bilag
Bilag A - Geografisk inddeling og benchmarkoversigt
Bilag B - Overgangsmatrice
Bilag C - Faktorer for geografiske grupper
Bilag D - Fordeling af antal foreninger i hver ratinggruppe
Bilag E - Sammentælling af antalstabeller til persistensanalyse
Bilag F - Samlet antal år brugt i hver rating
Bilag G - Morningstars forudsigelsesevne, eksempel på 3-årig dummy variable test
Bilag H - Oversigt over 5-stjernet outperformance
Elektroniske bilag - Excel-filer og -mapper
Data fra Morningstar (afkast og rating)
Data for kapital in-flow samt resultater
Beregning af den danske SMB- og HML-faktor
Beregning af den danske WML-faktor
Mappe indeholdende forudsætningsoversigt og Stata-kommandoer
Resultat af overgangsmatricer med flere tidshorisonter
Mappe med antalstabeloversigt fra persistens samt MatLab-kommandoer til overgangsmatricer
Datasortering og ratingtildeling (Morningstar vs. alternative ratings)
Mappe med databehandling og regressioner (Morningstar vs. alternative ratings)
Oversigt over resultater fra 3-års test, samlet og periodeopdelt (dummy variable regressioner)
Mappe indholdende alle indledende og dummy variable regressioner samt kode til 3-års testet
Resultatoversigt fra månedstestet
Mappe indeholdende MatLab-kode (Patton) og data til udførelse af månedstestet
vi
1
Indledning
Over de seneste år er de private midler placeret i danske investeringsforeninger steget støt, og pr.
marts 2015 er den samlede beholdning på 750 mia. kr. (IFB, 2015). Beløbet er fordelt på knap 600
foreninger, men er samtidig er markedet domineret af banker, da Nordea Invest og Danske Invest
administrerer ca. halvdelen. Det store udbud af investeringsforeninger kan let blive uoverskueligt
for private investorer, der samtidig står over for alternative investeringsmuligheder såsom aktier,
obligationer og ejendomme.
For at hjælpe investorer med denne udvælgelse har det globale analyseselskab Morningstar i
mange år tildelt investeringsforeninger mellem 1 og 5 stjerner. De såkaldte Morningstar ratings
er alment kendte, og i tildelingen af dem tages der forbehold for parametre såsom risiko, omkostninger og historisk afkast. Hver af de fem stjernegrupper tildeles en forudbestemt andel af
foreningerne, og ratingsystemet er dermed baseret på relative performanceevalueringer. Danske
investeringsforeninger modtager også en rating, som hyppigt anvendes i foreningernes egen markedsføring.
Populariteten hos disse ratings har motiveret en række studier af deres egentlige egenskaber.
Studier på udenlandsk data har vist en sammenhæng mellem tilstrømning af kapital til investeringsforeninger og deres Morningstar rating. Dette resultat antyder, at Morningstars ratings
indgår som et centralt element i investorers valg af investeringsforening. Andre undersøgelser af
udenlandsk data har stillet sig kritiske over for denne brug af Morningstar ratings som pegepind
for fremtidig performance. Morningstar hævder ikke selv, at ratings kan bruges til at forudsige
fremtidig performance, men mener derimod, at ratings bør indgå som ét af redskaberne til udvælgelse af investeringsforeninger. Spørgsmålet er, om det er begrundet at vælge foreninger ud
fra deres Morningstar ratings.
1.1
Problemformulering
Formålet med denne afhandling er at undersøge, hvorvidt der er en sammenhæng mellem danske
aktieinvesteringsforeningers relative, risikojusterede performance og deres Morningstar rating.
Der er efter forfatternes bedste viden ikke tidligere foretaget lignende akademiske undersøgelser
af dette emne udelukkende på danske data. Dette empiriske gap danner grundlag for afhandlingens
hovedspørgsmål:
1
Kan Morningstar ratings bruges til at forudsige relativ performance af danske investeringsforeninger?
Hovedspørgsmålet analyseres gennem af- eller bekræftelse af følgende hypoteser:
H1 : Der er en positiv sammenhæng mellem investeringsforeningers kapital in-flow og
deres Morningstar rating
H2 : Morningstar ratings er i sig selv persistente
H3 : En rating-inddeling tilsvarende Morningstars opnås ikke af alternative ratingsystemer
H4 : Performance af Morningstars stjernegrupper udviser et monotont forhold
H5 : Morningstars 5-stjernede gruppe performer bedre end alternative ratingsystemers
5-stjernede grupper
Baggrunden for de fem hypoteser diskuteres i afsnit 2.3.
1.2
Afgrænsning
Undersøgelse af hovedspørgsmålet kan tage udgangspunkt i mange forskellige metoder, men forfatterne har udvalgt to til at foretage selve performanceevalueringen, to til at undersøge persistens
i ratings, og én til at undersøge hhv. kapital in-flow og ratingfordeling ved alternative ratingsystemer.
Datagrundlaget, der indeholder ratings, afkast og kapital flow, består af 10-årig periode fra oktober 2004 til september 2014, hvilket beskrives nærmere i kapitel 3. Data er udelukkende baseret på
danske aktieinvesteringsforeninger1 , og dermed ses der bort fra obligationsinvesteringsforeninger
og udenlandske investeringsforeninger. Morningstar inddeler investeringsforeninger i forskellige
kategorier og stile, hvilket der også ses bort fra i denne afhandling. Endvidere tager afhandlingen ikke forbehold for eventuelle skattemæssige påvirkninger. Der er gennemgående justeret for
valutakursudsving i afkast. Vi antager dermed, at investeringsforeningerne ikke har hedget mod
disse, således investorer tager mulige tab og gevinster fuldt ud.
Analyserne tager ikke forbehold for eventuelle omkostninger som f.eks. front-end- og back-endloads, der ikke allerede er fratrukket de tilsendte afkast fra Morningstar. Dette beskrives nærmere
i afsnit 3.1.2.
1
Omtales fremover som ’investeringsforeninger’ eller blot ’foreninger’
2
Performance i analyserne behandles udelukkende ud fra risikojusterede mål. I visse tilfælde observeres signifikant positive alpha-værdier, hvilket konflikterer med teorien om det eﬃciente marked
(Fama, 1970). Da analyserne foretages ud fra relative og ikke absolutte evalueringer, behandler
vi ikke behandler spørgsmålet om markedseﬃciens.
1.3
Struktur
Afhandlingen er overordnet inddelt i syv kapitler, der alle er inddelt i flere underafsnit. Kapitel 1
fungerer som indledning og redegør for problemformulering, afgrænsning og begreber. Kapitel 2
indeholder en litteraturgennemgang af tidligere studier om Morningstar ratings samt en beskrivelse af Morningstars ratingmetodologi. Dette fører hen til diskussion af hypoteserne formuleret
i afhandlingens første kapitel. Kapitel 3 beskriver datagrundlaget og indsamlingen af dette. Kapitel 4 indeholder en beskrivelse af metoderne, der ligger til grund for rapportens analyser af
de opstillede hypoteser. I kapitel 5 præsenteres de empiriske resultater fra analyserne, der følger
rækkefølgen fra det foregående kapitel. Dette leder til kapitel 6, som opsamler resultater, besvarer de opstillede hypoteser og konkluderer på hovedspørgsmålet. Endeligt afsluttes afhandlingen
i kapitel 7, hvor konklusionerne diskuteres og perspektiveres.
1.4
Begreber og definitioner
Dette afsnit definerer de væsentligste begreber anvendt i afhandlingen.
Afkast: Det månedlige afkast for investeringsforeningerne er beregnet som den månedlige ændring
i den indre værdi (Net Asset Value). Der arbejdes med de faktiske, procentuelle merafkast, hvilket
er de reelle afkast fratrukket den risikofrie rente.
Monotoni: Når der tales om et monotont forhold i denne afhandling, betyder det, at der er en
positiv sammenhæng mellem rating og en given variabel som f.eks. kapital in-flow eller performance. Hvis der eksisterer et monotont forhold, har højere ratede foreninger dermed et større
kapital in-flow eller højere performance.
Performance: Afhandlingen bruger begrebet performance i en risikojusteret sammenhæng, og vi
gør brug af tre forskellige mål til at vurdere investeringsforeningernes performance: CAPM-alpha,
4-faktor-alpha og Sharpe Ratio2 . Desto større alpha og Sharpe Ratio, desto bedre performance.
Persistens: Persistens betyder, at de tildelte ratings fra Morningstar ikke varierer/skifter inden
for rimelige tidshorisonter. Persistensbegrebet er ikke relateret til performance.
2
Den teoretiske baggrund for disse mål er beskrevet nærmere i afsnit 4.3
3
2
Baggrund og teoretisk motivation
Dette afsnit gennemgår afhandlingens teoretiske fundament og dermed motivationen for de opstillede hypoteser. Indledningsvist beskrives den hidtidige litteratur. Dernæst følger en beskrivelse
af Morningstars ratingmetodologi. Informationerne fra disse to afsnit danner et fundament for
diskussion af hypoteserne, der beskrives sidst i kapitlet.
2.1
Litteraturgennemgang
Jaﬀe (1995) og Damato (1996) var de første til at påpege korrelation mellem Morningstar ratings
og kapital in-flow i investeringsforeninger. De fandt, at ca. 90% af nye investeringer blev tilført
foreninger med en 4- eller 5-stjernet rating3 . Sirri & Tufano (1998) forsøgte at forklare denne sammenhæng med en teori om, at investorer baserer deres valg af investeringsforening på Morningstar
ratings i et forsøg på at nedbringe search costs4 . Dette fører ifølge artiklen til asymmetriske investeringer, således de højere ratede foreninger oplever disproportionalt store in-flows. Goetzmann
& Peles (1997) fandt lignende resultater og konkluderede, at investorer tillægger historiske informationer for stor vægt. Sammenhængen mellem kapital in-flow og ratings er sidenhen blevet
bekræftet i flere omgange af Del Guercio & Tkac (2002; 2003), som afslørede signifikante, anormale flows til foreninger efter et ratingskift. Alt i alt ser det ud til, at Morningstar ratings har stor
betydning for det in-flow, foreninger oplever. Denne sammenhæng dannede grundlag for de efterfølgende års studier af Morningstar ratings’ egenskaber. Studierne af området søger at besvare,
hvorvidt korrelationen mellem ratings og in-flow kan forsvares af ratings’ forudsigelsesevne.
Khorana & Nelling (1998) samt Blake & Morey (2000) var blandt de første til at udføre disse
studier. Khorana & Nelling undersøgte, hvorledes der eksisterede et monotont forhold mellem ratings i perioden december 1992 til juni 1995. Her fandt de performancepersistens og konkluderede
dermed, at Morningstar ratings er gode til at forudsige hvilke foreninger, der klarer sig relativt
bedst. Blake & Morey undersøgte over en længere tidsperiode, hvordan ratings kan anvendes til
at forudsige performance. De fandt, at Morningstar kan forudsige ringe, fremtidig performance,
idet de lavere ratede foreninger udviste ringere performance i deres out-of-sample vindue. De
fandt dog ikke statistisk bevis for, at den højest ratede gruppe outperformede 4- og 3-stjernede
foreninger. Ydermere klarede Morningstar ratings sig kun marginalt bedre end andre alternative
predictors. I 2005 observerede Morey også, at 5-stjernede foreningers performance faldt kraftigt
tre år efter, at de første gang modtog denne rating, og dette skyldtes bl.a., at de påtog sig mere
risiko.
Det øgede fokus på Morningstar ratings førte også til en del kritik af deres metodologi. Sharpe (1998) konkluderede, at den gamle ratingmetodologi teoretisk set ikke var brugbar til at
3
4
Ifølge Financial Research of Chicago
Defineret som omkostningen en investor har ved at bruge tid og energi på at undersøge investeringsalternativer
4
udvælge foreninger fra en gruppe af investeringsforeninger med henblik på at danne en multiforeningsportefølje. Blume (1998) fandt, at ratings udviste skævhed i fordelingen, således urimeligt mange foreninger opnåede de højeste ratings. Morningstar ændrede derefter deres metodologi
kraftigt i 20025 (først for USA, senere for Europa i 2006) for at tage højde for denne mulige skævhed, hvilket aﬀødte en ny række studier af ratings’ forudsigelsesevne.
Her vendte bl.a. Morey tilbage i 2006 for at undersøge konsekvenserne af den nye metodologi.
Han undersøgte perioden juni 2002 - 2005 og konkluderede, at ratings kunne forudsige performance i denne 3-årige periode, og at der eksisterede et monotont forhold mellem ratinggrupperne.
Samme konklusion nåede Antypas et al. (2009), som endvidere konkluderede, at de 3-5 stjernede
foreningers relative bedre performance skyldtes aktieudvælgelse frem for market timing egenskaber. Senere studier har dog udfordret konklusionen om, at Morningstar ratings kan forudsige
performance. Duret et al. (2008) foretog også en analyse og fandt, at ratings ikke er gode til at
forudsige performance; ratings kan anvendes til at identificere veldrevne foreninger, men at man
som investor også skal medtage kvalitative elementer i sin udvælgelse. Gerrans (2006) konkluderer til gengæld, at Morningstar ratings ikke udviser forudsigelseevner på australske foreninger på
trods af, at Morningstars australske afdeling netop medtager kvalitative elementer i tildelingen
af ratings6 .
De omtalte studier anvender varierende metoder, tidsperioder og geografiske områder til at undersøge forudsigelsesevnen af Morningstar ratings. Med de meget forskellige resultater konkluderes
det, at empirien endnu ikke har nået til en fælles fortolkning af forudsigelsesevnen.
2.2
Morningstars ratingmetodologi
Siden introduktionen i 1985 har Morningstar Ratings vundet mere og mere indflydelse i investeringsverdenen. Dette afsnit forklarer hvilke beregninger og fremgangsmetoder, der ligger til
grund for bestemmelsen af Morningstar ratings. Beskrivelsen tager udgangspunkt i Morningstar Fund Rating Methodology (2009). Den nuværende ratingproces for Europa blev påbegyndt
i 2006. Persistenstestene strækker sig dermed over begge ratingmetodologier, da disse starter i
2004. Testene af forudsigelsesevnen behandler derimod kun ratings givet efter det nye system, da
første out-of-sample periode og ratingtildeling i vores undersøgelse begynder i 2007.
En pågældende investeringsforenings rating er et resultat af en kvantitativ bedømmelsesproces
baseret på foreningens risikojusterede afkast. Indledningsvist inddeler Morningstar investeringsforeningerne i kategorier, således en sammenligning af ratings er mulig; dvs. man samler foreninger
i kategorier med nogenlunde ens risikokarakteristika som f.eks. dividendesøgende foreninger. Dernæst inddeles foreningerne i stile som f.eks. value-foreninger. Disse risikoinddelinger bliver senere
5
6
Jf. Morningstar Fund Rating Methodology
Modsat den amerikanske og europæiske metodologi
5
relevante, når der skal tages højde for fordelingen af ratings i risikoklasserne. Efter foreningerne
er blevet opdelt, beregnes deres Morningstar Risk-Adjusted Return (MRAR). Dette gøres i fire
trin:
1. Først beregnes det totale afkast for investeringsforeningerne for en given måned, T Rt . Dette
afkast inkluderer kapitalgevinsten i form af øget indre værdi pr. andel samt geninvesterede
dividender. Derefter laver Morningstar en delvis skattetilretning, såfremt de fleste investorer i én given forening kvalificerer sig til at udsættes for samme skattebehandling, selvom
dette ikke altid er muligt. Det kumulative afkast, T Rc , beregnes derefter ved at tage det
geometriske gennemsnit af de enkelte måneders totale afkast.
2. Det kumulative afkast justeres derefter for loads7 (baseret på holdeperioder på tre, fem
og ti år) ved at gange det totale, kumulative afkast, T Rc , med 1 minus. Dette skaber det
kumulative, load-justerede afkast, LRc . Derefter beregnes den månedlige justeringsfaktor
for loads, a,
a=
✓
1 + LRc
1 + T Rc
◆1
T
(2.1)
Endeligt ganges denne justeringsfaktor på 1 + T Rt for at give det månedlige, load-justerede
afkast LRt .
3. Dernæst beregnes det såkaldte Morningstar Afkast. Først fratrækkes den risikofrie rente, så
der kun kigges på merafkastet, ERt . Den risikofrie rente varierer afhængigt af geografisk
fokus hos foreningen. Morningstar Afkastet er det annualiserede geometriske gennemsnitlige
afkast.
4. Til sidst beregnes MRAR, som er baseret på nytteteori og risikoaversion hos den enkelte investor. Morningstar definerer selv MRAR som ”det garanterede afkast, der giver det samme
nytteniveau som den specifikke kombination af afkast, foreningen hidtil har oplevet”.
Det er herefter MRAR, som benyttes til at udforme den endelige rating. Denne er et resultat af
et vægtet gennemsnit af foreningens 3-, 5- og 10-årige MRAR, som vægtes med henholdsvis 20%,
30% og 50%. Såfremt foreningen ikke har haft et afkast de sidste 10 år, bliver vægtningen 40%
og 60% på henholdsvis den 3- og 5-årige MRAR. I yderste tilfælde tillægges foreningens 3-årige
MRAR 100% vægt, såfremt foreningen ikke har fem års afkast. For at modtage en rating, skal
foreningerne dermed som minimum have tre års afkast.
Denne fremgangsmetode skaber et vægtet MRAR for hver forening, og disse rangeres inden for
hver kategori. Endeligt passes rangeringen ind under en klokkeform, hvor de øverste 10% af foreningerne opnår en 5-stjernet rating, de næste 22,5% opnår en 4-stjernet rating, de næste 35%
en 3-stjernet rating, og de sidste 22,5% og 10% opnår henholdsvis en 2- og 1-stjernet rating. Her
7
Dette kan eksempelvis være front-end load (omkostning ved køb af andel), redemption fee (afgift ved salg efter
kort tid) og back-end load (afgift ved salg af andel)
6
kan bemærkes, at Danmark hører under Europa mht. denne fordeling. Det danske ratinggennemsnit er i dag omkring 3,5, altså et halvt point højere end det europæiske gennemsnit (Mikkelsen,
2014), hvilket tyder på, at danske foreninger klarer sig relativt godt i en europæisk sammenhæng
jf. Morningstar.
2.3
Baggrund for hypoteser
Litteraturgennemgangen i afsnit 2.1 afslørede modstridende konklusioner på tværs af geografiske
grupper og tidsperioder. Forfatterne finder det interessant at undersøge de samme aspekter, men
på danske data for de seneste 10 år, da området efter forfatternes bedste viden endnu ikke
er undersøgt i dybden. Dette afsnit gennemgår motivationen og relevansen for hver af de fem
hypoteser introduceret i afsnit 1.1. Hypoteserne skal samlet set danne grundlag for at analysere
problemformuleringen.
Den første og tredje hypotese klarlægger hhv. relevansen af afhandlingens emne og eventuelle
forskelle mellem Morningstar ratings og ratings fundet ved alternative mål. Hypotese 2, 4 og 5
undersøger brugbarheden og performance af Morningstars ratings, og tilsammen kan disse besvare
afhandlingens hovedspørgsmål.
H1 : Der er en positiv sammenhæng mellem investeringsforeningers kapital in-flow og
deres Morningstar rating
Motivationen for at undersøge Morningstar ratings’ forudsigelsesevne er, at ratings potentielt
udgør en væsentligt del af investorernes beslutningsproces. En afvisning af ovenstående hypotese
vil tyde på, at ratings ikke har betydning for investorer, idet in-flows ikke korrelerer med ratings.
Hvis der derimod observeres en positiv sammenhæng mellem kapital in-flow og Morningstar
ratings, tyder det på, at ratings påvirker investorernes beslutninger. Det sidstnævnte er observeret
flere gange af udenlandske studier, og hvis forholdet også er fremherskende i Danmark, øger det
relevansen for undersøgelsen af hovedspørgsmålet.
H2 : Morningstar ratings er i sig selv persistente
Hensigten med H2 er at undersøge, om ratings er persistente over tid. En fastholdelse af denne
hypotese betyder, at når investorer køber en investeringsforening, der har modtaget en rating af
Morningstar, så kan de forvente, at denne rating ikke ændres inden for en rimelig tidshorisont. En
eventuel afvisning af hypotesen taler derfor imod, at investorer bruger ratingsystemet, da man
alligevel ikke kan forvente fastholdelse af f.eks. en 5-stjernet rating. Besvarelsen af hypotesen
bidrager til helhedsvurderingen af Morningstar ratings som et anvendelig investeringsredskab.
7
H3 : En rating-inddeling tilsvarende Morningstars opnås ikke af alternative ratingsystemer
Formålet med hypotesen er at undersøge, om ratingtildelinger på baggrund af rapportens valgte risikojusteringsmål sammenfalder med Morningstars ratingtildeling. Hvis dette er tilfældet,
så anses Morningstar ratings ikke for at være unikke, da deres fordeling kan genskabes ved relativt udbredte metoder. Udfaldet af hypotesebesvarelsen taler hverken for eller imod at bruge
Morningstar som ratingsystem, men hvis resultaterne fra undersøgelsen af den fjerde og femte
hypotese viser lighed i ratingsystemernes performance, kan et eventuelt overordnet sammenfald i
ratings være en del af forklaringen.
H4 : Performance af Morningstars stjernegrupper udviser et monotont forhold
Hvis Morningstars stjernegrupper udviser et monotont forhold, vil foreninger, der modtager en
høj rating, efterfølgende levere et relativt højt risikojusteret afkast og vice versa. Dermed kan
investorer have tillid til, at Morningstar ratings er i stand til både at udpege gode og dårlige
investeringsforeninger. Belysningen af brugbarheden sker gennem sammenligning af Morningstar
ratings med tre alternative mål.
H5 : Morningstars 5-stjernede gruppe performer bedre end alternative ratingsystemers
5-stjernede grupper
Brugbarheden af et ratingsystem kan ikke afvises alene fordi, det ikke besidder et monotont forhold. Hvis Morningstar er i stand til at udpege de bedstperformende foreninger, taler det for
brugbarheden af deres ratings. Hvis Morningstar kan udpege disse foreninger, må det betyde,
at ingen af de alternative ratingsystemers 5-stjernede grupper er i stand til levere et højere risikojusteret afkast end Morningstars 5-stjernede gruppe. En fastholdelse af hypotesen indikerer,
at investorer, der ønsker at maksimere deres risikojusterede afkast ved handel af danske investeringsforeninger, bør benytte Morningstar ratings til udvælgelse.
8
3
Datagrundlag
Dette afsnit beskriver rapportens datagrundlag, herunder hvordan dette er indsamlet. Fokus er
på udvælgelse af data samt valg af benchmarks.
3.1
Investeringsforeninger
Efter dataforespørgsel fra forfatterne har Morningstar Danmark8 tilsendt et datasæt, der indeholder ratings (stjerner fra 1 til 5) og månedlige afkast for samtlige danske investeringsforeninger,
der har haft en rating på et tidspunkt i perioden oktober 2004 til september 2014. Vi startede med
at frasortere alle foreninger, der ikke havde en rating pr. oktober 2004 for udelukkende at arbejde
med foreninger med data fra begyndelsestidspunktet. Efterfølgende har vi frasorteret samtlige
foreninger, der investerer i obligationer.
Idet analysen strækker sig over en 10-årig periode, hvor vi medtager alle foreninger, der eksisterede i starten af perioden, falder nogle foreninger fra undervejs enten som resultat af lukning
eller fusionering ind i andre fonde. Vi ender i alt med 109 foreninger, som er overlevende gennem hele den 10-årige periode, og 78 foreninger, der ophører med at eksistere. De månedlige
observationer gør, at der er 120 observationer for de overlevende foreninger og færre for de, der
ophører undervejs. Trods en mere besværlig datahåndtering er de undervejs ophørte foreninger
medtaget i et forsøg på at undgå et potentielt survivorship bias, som beskrives mere udførligt i
næste underafsnit (3.1.1).
Datasættet indeholder både udloddende og akkumulerende foreninger, og forskellige skatteforhold
kan have en indvirkning på det realiserede afkast. Dog udgør de akkumulerende foreninger kun
et fåtal af de 187 foreninger, og det vurderes derfor ikke til at være problematisk. Af denne årsag
tages der ikke forbehold for skattepåvirkninger i analyserne, som det også blev bemærket i afsnit
(1.2). Analysen omfatter desuden både passive og aktive foreninger.
De månedlige afkast indeholder geninvesterede udbyttebetalinger fratrukket administrationsomkostninger. Med andre ord er afkastet det, en investor ville have fået, hvis vedkommende havde
holdt sit investeringsbevis i en given investeringsforening gennem en given måned. Dette betyder
også, at afkast ikke indeholder de omkostninger, der evt. opstår ved køb og salg af investeringsbeviser (loads). Disse omkostninger omtales mere i afsnit 3.1.2.
8
Vi takker Nikolaj Holdt Mikkelsen, chefanalytiker for Morningstar Danmark
9
3.1.1
Survivorship bias
Survivorship bias kan udtrykkes som en skævhed eller en forskydning i data. Det kan forekomme
ved, at man enten over- eller underestimerer den faktiske performance af et aktiv, hvis man over
en periode kun observerer de, som overlever hele analyseperioden. Malkiel (1995) foretog som en
af de første en undersøgelse af, hvorvidt survivorship bias kan have eﬀekt på performancemålinger. Han fandt frem til, at det årlige gennemsnitlige afkast var 1,4 procentpoint højere, hvis man
udelukkende fokuserede på de overlevende fonde. Survivorship bias i sådanne undersøgelse kan
altså resultere i et positivt bias i form af overestimerede afkast. På trods af risikoen for survivorship bias undlader mange akademiske studier at medtage foreninger eller aktier, som ophører
i løbet af undersøgelsesperioden, både når det gælder generelle performancemålinger og studier
af Morningstars ratings forudsigelsesevne.
Et survivorship bias vil i vores analyse eksistere, hvis f.eks. de 5-stjernede foreninger, som overlever hele perioden, performer bedre end de 5-stjernede, der ophører undervejs. Dvs. performance
i de enkelte ratinggrupper overestimeres ved at se bort fra nogle foreninger. For at undgå denne situation medtager vi alle foreninger, således vi eliminerer et evt. bias på trods af et mere
omstændigt dataarbejde herunder valg af håndteringsmetode.
Vores performanceanalyser kan alligevel indeholde et potentielt bias, idet vores to analysemetoder
har et krav til henholdsvis tre års data fra 10/2004 - 09/2007 (170 foreninger opfylder dette) og
seks års data fra 10/2004 - 09/2010 (154 foreninger opfylder dette). Dette datakrav udelukker
altså hhv. 17 og 33 foreninger, og det kan skævvride resultaterne for denne undersøgelse, da de
aldrig bliver inkluderet i performanceanalyserne.
Vi anvender en metode til at reducere et evt. bias for vores 3-års test, der stiller det relativt store
datakrav på seks års data. Her følges en af Morey og Gottesmans (2006) metoder, som antager
tilfældig geninvestering resten af året. Vi antager dermed, at en investor tilfældigt geninvesterer
sin kapital fra en ophørt forening ind i en anden forening, således afkastet fra den ophørte forening året ud (oktober - oktober) bliver et ligevægtet gennemsnit af de resterende fondes afkast.
Dermed falder vores datakrav til foreningerne fra seks år (72 måneder) til fem år og én måned
(61 måneder).
3.1.2
Omkostninger
Som beskrevet tidligere i afsnit 3.1 er de analyserede afkast allerede justeret for administrationsomkostninger, men ikke for loads i forbindelse med køb og salg af investeringsandele. Overordnet
kan disse klassificeres som enten front-end eller back-end loads, afhængigt af om omkostningen
betales ved investering i foreningen eller ved salg af investeringsbeviser. Disse varierer fra forening
til forening og kan have været udsat for ændringer i løbet af den valgte tidsperiode.
10
Investeringsfondsbranchen9 (IFB) oplyser loadomkostningerne i form af en ÅOP, den procentuelle årlige omkostning ved at investere i en given forening, hvor alle omkostninger er indregnet.
For at skabe et lettilgængeligt sammenligningsgrundlag arbejder IFB ud fra en antagelse om en
holdeperiode af foreningerne på 7 år. Loads er ikke fratrukket de afkast, der arbejdes med i denne
afhandling bl.a. grundet problemstillingen med fastlægge denne holdeperiode. Bestemmelsen af
holdeperiodens længde kan i sidste ende få stor indvirkning på resultaterne og dermed afhandlingens konklusioner, hvorfor vi har valgt ikke at tage hensyn til disse trods de mulige problemer.
3.1.3
Flow data
Analyser af kapital in-flow i investeringsforeningerne er foretaget på baggrund af data stillet til
rådighed af IFB10 . De estimerede net flows, som danner grundlag for analysen, er beregnet ud
fra ændringer i formueværdien for de enkelte investeringsforeninger efter anvisning fra IFB. Konsekvensen af denne estimerede metode er, at formueændringerne også indeholder geninvesterede
udbyttebetalinger samt eventuelle fusioner fra andre foreninger, hvorfor der fås estimerede net
flows og ikke de reelle net flows. Efter samråd med IFB blev det vurderet, at denne approksimation
er tilstrækkelig til at undersøge afhandlingens hypotese omkring kapital in-flow.
3.2
Benchmarks og faktorer
Performancemåling indgår som et helt centralt element i denne rapport, og derfor er det nødvendigt at gøre sig overvejelser omkring udvælgelse af benchmarks, som investeringsforeningers
afkast skal sammenholdes med. Foreningerne der medtages i undersøgelsen er inddelt i 6 geografiske grupper: Danmark, Europa, Asien ekskl. Japan, Global, Japan og Nordamerika. De geografiske
grupper er bestemt ud fra de enkelte foreningers investeringsstrategi samt IFBs klassificering. Da
der ønskes grupper af rimelig størrelse er inddelingen begrænset til 6 overordnede grupper, på
trods af en given investeringsforening kan have et mere fokuseret område. Der er ligeledes set bort
fra branchespecifikke strategier som ’Health Care’ og ’Informationsteknologi’. Efter nærmere undersøgelse af de få foreninger med branchestrategier blev det klart, at de alle samtidig havde et
globalt fokus, hvorfor de er placeret i denne gruppe. En oversigt over gruppeinddelingerne kan
ses i bilag 7.2.
IFB er også anvendt til at udvælge de specifikke markedsindeks, som alle, med undtagelse af
Danmark, er udarbejdet af Morgan Stanley Capital International (MSCI). Dette sikrer, at de
mest retvisende benchmarks benyttes. OMX Copenhagen Benchmark er udvalgt som det danske
benchmark, idet NASDAQ har udformet netop dette indeks for at skabe det mest retvisende billede af udviklingen på NASDAQ OMX Copenhagen. Alle indeks er desuden vægtet efter aktiernes
9
10
Investeringsfondsbrancen er brancheforeningen for investeringsforvaltere
Vi takker Henrik Hansen fra IFB
11
markedsværdi og opgjort i bruttopriser, således der tages højde for geninvestering af udbyttebetalinger.
Afkast fra de udenlandske indeks er også justeret for valutakursudsving. MSCIs indeks er opgjort i
USD, mens afkast for investeringsforeningerne er opgjort i DKK. Forfatterne har derfor omregnet
MSCIs indeks til DKK ved at fratrække de månedlige kursudsving, hvorved vores benchmarks afkast også bliver opgjort i DKK. Disse justeringer er foretaget, idet rapporten tager udgangspunkt
i investeringsbeslutningen set fra en dansk investors synspunkt.
Til sidst er den risikofrie rente fratrukket afkast, og til dette formål bruges den månedlige Copenhagen Interbank Oﬀered Rate (CIBOR) som proxy for den risikofrie rente. Efter finanskrisen
i 2008 er det muligt at diskutere, hvorvidt interbankrenterne reelt set er risikofri, men dette er
uden for rapportens omfang.
12
4
Metodisk grundlag
Dette afsnit beskriver afhandlingens metodiske fundament. Indledningsvist beskrives metoderne
til at teste kapital in-flow, persistens i ratings og ratingsammenligning for afslutningsvist at
beskrive metoden til at teste forudsigelsesevnen af Morningstars ratings.
4.1
Kapital in-flow på tværs af stjernegrupper
Som beskrevet i afsnit 3.1.3 er de estimerede net flows beregnet ud fra ændringerne i foreningernes
markedsværdi. Dette er vist i formel 4.1, hvilken er baseret på Sirri & Tufanos (1998) metode,
som er i overensstemmelse med IFB’s anvisninger. Da der ses bort fra geninvesterede udbytter
og fusioner, kan en markedsværdiændring være et resultat af to faktorer; det realiserede afkast og
kapital in-flow fra investorer. Når sidste periodes markedsværdi tillægges det realiserede afkast i
den nuværende periode, må forskellen mellem dette og den nuværende markedsværdi være kapital
in-flow fra investorer. Ses dette kapital in-flow i forhold til sidste periodes markedsværdi, fås
estimatet for det procentuelle in-flow, F lowi,t , til en given forening,
F lowi,t =
M Vi,t
(1 + ri,t ) M Vi,t
M Vi,t 1
1
(4.1)
De estimerede net flows anvendes til at beregne det gennemsnitlige in-flow for hver ratinggruppe.
Igen tages der højde for et eventuelt survivorship bias ved at inkludere alle foreninger frem til
tidspunktet, hvor de ophører med at eksistere selvstændigt.
4.2
4.2.1
Persistens i ratings
Antalstabeller på tværs af tid
Den første metode til at undersøge persistens i ratings er gennem antalstabeller (contingency
tables), hvilket følger Khorana & Nellings metode (1998). Deres studie og resultater henvises
senere til af Blake & Morey (2000). Ved dette test defineres et start- og sluttidspunkt f.eks. start
i år 1 og slut i år 2. Ved starttidspunktet udføres en optælling af foreningerne og deres rating, dvs.
hvilke og hvor mange foreninger er placeret i stjernegruppe 1 - 5. Denne fordeling sammenlignes
med fordelingen og antallet af foreninger i hver stjernegruppe på sluttidspunktet. Det er dermed
muligt at se, i hvilken ratinggruppe de enkelte foreninger er startet og sluttet. Resultatet er en
5 ⇥ 5 antalstabel, hvor diagonalen udtrykker antallet af foreninger, der har haft den samme rating
på start- og sluttidspunktet.
H0 -hypotesen i dette test er, at der er uafhængighed mellem række- og søjle-variablene, dvs. at
ratings ved slutningen af perioden ikke er afhængige af ratings i starten af perioden. Fastholdelse
13
af denne hypotese kan tolkes som, at et væsentligt antal af foreningerne skifter mellem grupperne,
hvilket taler imod persistens. En forkastelse af H0 derimod vil tale for persistens i ratings. For
at øge robustheden af resultaterne testes hypoteserne både ved Pearson’s
ratio-test. Begge tests følger asymptotisk en
2 -fordeling
2 -test
og et likelihood
med (r-1)(c-1) frihedsgrader, hvor r er
antal rækker, og c er antal kolonner.
Pearson’s
2 -test
kigger på forholdet mellem det forventede antal observationer i hver r ⇥ c felter
af antalstabellen og det faktiske antal observationer i hver af disse felter,
Ei,j =
(rækkesumi )(kolonnesumj )
T otal antal observationer
(4.2)
Teststatistikken måler dermed diskrepansen mellem det forventede og det faktiske antal, hvorefter
den sammenligner størrelsen af denne forskel med en tilfældig sandsynlighedsmodel,
2
=
r X
c
X
(Oi,j
i=1 j=1
Ei,j )2
(4.3)
Ei,j
Oi,j = Det observerede antal observationer i række i, søjle j
Ei,j = Det forventede antal observationer i række i, søjle j
Hvis der er stor forskel mellem det observerede og det forventede antal, resulterer det i en høj teststatistik, og dermed en afvisning af nulhypotesen om uafhængighed. Hvis de faktiske observationer
derimod er placeret, hvor de forventes at ligge, resulterer det i en lav test-statistik og fastholdelse
af nulhypotesen om afhængighed.
Likelihood ratio-testet kigger på sandsynligheden for, hvordan data fordeler sig under antagelse af
tilfældighed (uafhængighed) og afhængighed, hvorefter disse sammenlignes. Testet sammenholder
to likelihood modeller,
0
G2 = 2 @
r X
c
X
Oi,j ln
i=1 j=1
✓
1
◆
Oi,j A
Ei,j
(4.4)
Modsat Khorana & Nelling (1998) foretager denne afhandling tests på flere tidsperioder af varierende længde for at øge robustheden af resultaterne. Starttidspunkterne er fra år 1-10, og
sluttidspunkterne er fra år 2-11, hvor den 11. periode er datasættets sidste måned (september
2014). De to test foretages som et rullende vindue, og dette giver 55 ( n·(n2
både
2-
1)
) test-statistikker for
og likelihood ratio-testet, og derfor i alt 110 p-værdier. Antallet af foreninger i hvert test
14
varierer over tid, idet foreninger kun kan medtages, hvis de har overlevet hele perioden. Dette
kan skabe et potentielt survivorship bias for de længere tidsperioders resultater.
Begge af disse tests har tilknyttet nogle forudsætninger herunder et krav om, at ingen af cellerne
i antalstabellerne må have en forventet værdi på under 5. Årsagen til dette er, at testene kun
approksimativt følger en
2 -fordeling,
og denne approksimation bliver problematisk, når de for-
ventede værdier for felterne er lave. Hvis denne approksimation ikke berettiget, vil et opslag for
den kritiske grænse i
2 -fordelingen
være fejlagtig, og dermed er p-værdierne forkerte. Khorana
& Nelling har en stikprøve på over 800 foreninger, og de har ét enkelt felt, der har en forventet
værdi under 5. Vores tests baseres på mellem 187 og 109 foreninger, og denne relativt lille sample
indeholder få af de ekstreme ratingværdier, hvilket fører til forudsætningsbrud for samtlige tests.
Forfatterne afrapporterer resultaterne fra de to tests trods disse væsentlige forbehold, men vælger
samtidig at foretage en fortolkning af de observerede ratingsammenfald.
I tilfælde hvor der er mange grupper, kan man forsøge at sammenlægge dem for at opnå højere
forventede værdier. Dette findes ikke meningsfyldt, når der kun arbejdes med fem grupper i denne
undersøgelse.
4.2.2
Estimering af overgangsmatricer
Antalstabellerne benytter kun to observationstidspunkter nemlig et start- og et sluttidspunkt.
Sammenholdt med det faktum, at de to tests er forbundet med væsentlige forudsætningsbrud,
foretages en modellering af udviklingen i ratings for robusthedens skyld. Modelleringen tager
udgangspunkt i Markovmatricer og følger fremgangsmåden fra Schuermann and Jafry (2003), der
viste udviklingen i credit ratings af obligationer. Metoden anvender alle tolv observationer pr.
år, og dermed udnyttes datasættet fuldt ud. Resultaterne fra denne analyse udtrykkes som de
observerede sandsynligheder for, at en forening i datasættets 10-årige tidsperiode enten beholder
sin rating eller skifter til en anden rating i løbet af en valgt tidsperiode.
Overgangsmatricer er empirisk også benyttet til modellering af Morningstar ratings af Hereil et
al. (2010) og Garnier & Pujol (2007). Resultaterne fra begge artikler bygger på en antagelse
om tidshomogenitet, hvilket betyder, at de observerede sandsynligheder i overgangsmatricerne
er en funktion af afstanden mellem to tidspunkter, men ikke tidspunkterne selv. Dvs. at sandsynligheden for eksempelvis en femstjernet forening bliver 4-stjernet efter ét år, er den samme,
uanset om man sætter starttidspunktet i f.eks. januar 2006 eller i juni 2009. Denne antagelse er
ikke nødvendigvis opfyldt, men dette ses der bort fra i analysen, og resultaterne tolkes som den
gennemsnitlige forventede værdi over tid.
Modelleringen forudsætter yderligere, at der er tale om absolutte og ikke relative ratings, hvilket
er tilfældet, da Morningstar ratings af danske investeringsforeninger er underlagt Europa, og
derfor modtager danske foreninger ikke et fast antal af hver rating. Dette er positivt for analysen.
15
Sandsynligheden for overgang fra en rating til en anden eller fastblivelse i den nuværende behandles i Markovmodelleringen som uafhængige af tidligere perioder. Med andre ord er processen
hukommelsesløs givet den nuværende rating. Selvom dette ikke problematiseres eksplicit i de førnævnte artikler, ser afhandlingens forfattere dette som et potentielt forudsætningsbrud, da en
Morningstar rating netop dannes ud fra historiske observationer. Omvendt kan der dog argumenteres for, at denne viden netop er inkorporeret i den nuværende rating, der tildeles ud fra relativ
performance.
Udfaldsrummet er endeligt, og der er i alt seks mulige tilstande, investeringsforeninger kan tage:
fra 1-5 stjerner eller ophør af eksistens (rating 0). Det lukkede udfaldsrum gør det muligt at
modellere overgangssandsynligheder i overgangsmatricer med forskellige tidshorisonter, der følger
opstillingen vist i bilag 7.2. Matricerne indholder i alt 36 værdier (seks mulige start- og slutplaceringer). De enkelte værdier i matricen noteres pti,j , og de repræsenterer sandsynlighederne
for, at en aktieforening med rating i har rating j efter t perioder, hvor i, j = 1, 2, 3, 4, 5, 0 og
t = 1, 2, ..., 120 tidspunkter. I samtlige overgangsmatricer er det værd at bemærke følgende:
• Samtlige pi,j sandsynligheder er mellem [0,1], og dermed er alle ikke-negative, hvilket er en
forudsætning for modelleringen
• Matricerne er right stochastic dvs. alle rækker, i, summerer til 100%,
P
pi,j = 1
j
• Det bearbejdede datasæt indeholder ikke foreninger, der opstår efter første dataobservation
i oktober 2004. Når foreninger er ophørt med at eksistere, genopstår de ikk. Derfor er
sandsynligheden for overgang fra rating 0 (død) til en af de fem andre ratings lig nul.
• Sandsynligheden for, at en forening med en givet rating ophører med at eksistere, kaldes
absorptionssandsynligheden og findes i matricernes sidste søjle.
For at estimere de 36 sandsynligheder i hver overgangsmatrice, hvoraf de seks fra sidste række
er kendt på forhånd, benyttes den førnævnte fremgangsmåde af Schuermann & Jafry. Metoden
bygger på Maximum Likelihood Estimation, der givet det observerede datasæt justerer værdierne
i overgangsmatricerne, så de observerede tilfælde bliver mest sandsynlige.
Først defineres en generatormatrice af størrelsen (6 ⇥ 6), som bruges til at estimere overgangssandsynlighederne, og denne noteres ⇤. De enkelte (30) elementer uden for generatormatricens
diagonal skal være større end eller lig med 0,
tricen skal sikre, at hver række summerer til 0,
i,j
i,i
0, i 6= j. Diagonalværdierne i generatormaP
=
i,j .
j6=i
For at opnå Maximum Likelihood estimatet af generatormatricen, beregnes ˆ i,j =
´T
0
Ti,j
,
Yi (s)ds
i 6=
j, hvor tælleren repræsenterer det totale antal skift observeret over den 10-årige periode fra
16
rating i til rating j. Integralet i nævneren beregner den totale tid brugt i hver rating af samtlige
Pˆ
foreninger over alle 10 år. Diagonalværdierne estimeres ved ˆ i,i =
i,j .
j6=i
Slutteligt defineres Pt , som også er af størrelsen (6 ⇥ 6), og denne indeholder de tidligere nævnte
procentuelle sandsynligheder for overgang fra en rating til en anden givet tidsafstanden. Matricen
beregnes som Pt = exp(⇤t), t
0, og det skal bemærkes, at der er tale om matriceeksponentialet.
Tidsintegralet beregnes sædvanligvis årligt, hvorfor t = 1 i den førnævnte formel giver den 1-årige
overgangsmatrice. Ønskes overgangsmatricen for f.eks. én måned eller tre år, sættes henholdsvis
t = 1/12 eller t = 3. Alternativt kan almindelige matriceregneregler benyttes, da f.eks. den treårige overgangsmatrice kan findes ved at multiplicere den ét-årige med sig selv tre gange dvs.
P 3 = P 1 P 1 P 1 . Det er muligt at gange matricerne sammen, da de er kvadratiske (Verbeek, 2012).
Det er tydeligt, at beregningerne foretages ud fra en antagelse om tidshomogenitet, da samtlige
estimater i generatormatricen beregnes som gennemsnitsværdier ud fra hele datasættets periode,
og der tages dermed ikke forbehold for, at nogle perioder kan være forskellige fra andre. En
ting, der adskiller denne metode fra start-slut tilgangen anvendt af Khorana & Nelling (1998),
er, at deres metode ignorerer alle skift i ratings mellem de to undersøgte tidspunkter, men her
inkluderes al information i sandsynlighederne. Samtidig er det potentielle survivorship bias, der
især kan være gældende for de lange tidshorisonter, hvor mange investeringsforeninger ophører,
ikke til stede i disse beregninger. En hypotetisk forening, der kun eksisterer i seks måneder, vil
også indgå i beregningen af f.eks. en et-årig overgangsmatrice.
4.3
Asset pricing modeller og performancemål
I dette afsnit beskrives de asset pricing modeller, CAPM og Carharts 4-faktor model, samt performancemål, Sharpe Ratio, som afhandlingen anvender til at undersøge Morningstar ratings’
forudsigelsesevne.
4.3.1
Capital Asset Pricing Model
The Capital Asset Pricing Model (CAPM) blev udviklet af William Sharpe (1964) og John Lintner
(1965). Modellen forsøger at forklare sammenhængen mellem det forventede afkast og risiko for
et givent aktiv. Modellen opdeler risiko i to elementer, henholdsvis systematisk og usystematisk
risiko, hvoraf den antager, at usystematisk risiko diversificeres væk. Således reduceres den ikkediversificerbare risiko for et aktiv til korrelationen med markedsporteføljen. Når den risikofrie
rente medtages, kan sammenhængen mellem den omtalte risiko og det forventede afkast beskrives
som,
17
E(Ri ) = Rf + [E(RM )
iM
=
Rf ]
(4.5)
iM
cov(Ri , RM )
var(RM )
(4.6)
hvor E(Ri ) er det forventede afkast for aktiv i , hvilket udgøres af den risikofrie rente Rf tillagt
en risikopræmie for markedet E(RM )–Rf , som derefter multiplikeres med aktivets markedsbeta,
iM .
Denne beta udtrykker forholdet mellem aktivets kovarians med markedsafkastet og variansen
af markedsafkastet.
CAPM ligningen kan benyttes til at risikojustere afkast, hvilket vi netop ønsker at gøre for investeringsforeningerne. Ved at regressere de enkelte foreningers afkast ved CAPM-formlen justeres
de simple afkast for deres kovarians med markedet og dermed den systematiske risiko. Et eventuelt tilbageværende afkast efter denne regression udtrykkes i Jensen’s alpha(1968), ↵. Denne
afhandling vil anvende CAPM til risikojustering af både in- og out-of-sample afkast.
4.3.2
Fama-Frenchs 3-faktor model
Et markant akademisk fokus på CAPM har over årene afsløret en række empiriske fejl ved modellen, hvilket har inspireret videreudviklinger af denne. Fama & French foreslog i 1992 en udvidelse
af CAPM, hvor de inkluderer flere risikofaktorer udover blot markedsporteføljen. Den ene af disse
er den såkaldte size-faktor, SMB (small-minus-big), som først blev beskrevet af Banz i 1981. Faktoren siger, at virksomheder med relativt små markedsværdier outperformer virksomheder med
relativt store markedsværdier. Den anden faktor, value-faktoren eller HML (high-minus-low), blev
undersøgt af både Stattman i 1980 og Rosenberg et. al i 1985. Faktoren siger, at virksomheder
med høje book-to-market (B/M-ratio) ratioer (value-virksomheder) har et højere afkast sammenlignet med virksomheder med lave book-to-market ratioer (growth-virksomheder). På baggrund
af disse inkluderinger fås nedenstående formel,
E(Ri ) = Rf +
1 [E(RM )
Rf ] +
2 SM B
+
3 HM L
(4.7)
Formlen ligner CAPM bortset fra de to ekstra led, SMB og HML, som er henholdsvis size- og
value-præmien. Faktorerne er udregnet på baggrund af zero-investment porteføljer, hvor man
investerer i små og value aktier, mens man tilsvarende shorter store og growth aktier. Det kan
derefter undersøges, om en forenings afkast kan forklares ud fra investering i små og/eller valueaktier set ud fra de tilsvarende betaer,
4.3.3
2
og
3,
som viser foreningens loading på disse to faktorer.
Carharts 4-faktor model
På trods af at Fama-Frenchs 3-faktor model var bedre end CAPM til at forklare sammenhængen
mellem afkast og risiko, afdækkede studier af Jegadeesh og Titman i 1993 momentum faktoren
18
eller WML (winners-minus-losers). Denne faktor viste, at en investor vil være i stand til at generere
et overnormalt afkast ved at købe sidste periodes vindere og shorte sidste periodes tabere på kort
sigt. Momentum-faktorens eksistens kan fra en behavioural finance vinkel perspektiveres til ’hot
hands’-fænomenet11 , som forsøger at give en forklaring på denne anormalitet. Carhart (1997)
inkluderede denne faktor i Fama-French modellen og udvidede den dermed til,
E(Ri ) = Rf +
1 [E(RM )
Rf ] +
2 SM B
+
3 HM L
+
4W M L
(4.8)
Fortolkningen af denne faktor er tilsvarende SMB og HML. WML er merafkastet for en portefølje,
som indeholder aktier med en relativ god et-årig performance kontra en portefølje med aktier,
som har en ringe et-årig performance. Disse faktorer har forfatterne selv beregnet for det danske
marked jf. afsnit 4.3.6, da de ikke var tilgængelige på Kenneth Frenchs hjemmeside. Den fulde
4-faktor model vil parallelt med CAPM blive anvendt til risikojustering af foreningernes afkast.
4.3.4
Sharpe Ratio
Udover asset pricing modellerne er Sharpe Ratio (Sharpe, 1966) et ofte anvendt performancemål
i litteraturen. Målet ser et aktivs gennemsnitlige merafkast Ri –Rf , ift. dets totale risiko
i
og
måler derved afkast pr. risikoenhed,
Sharpe Ratioi =
Ri –Rf
, i = 1, 2...n
i
(4.9)
I afhandlingen rangeres og måles investeringsforeningerne over en given periode, således Ri –Rf
bliver hver forenings gennemsnitlige merafkast for den pågældende periode, divideret med standardafvigelsen
i
for samme periode.
Sharpe Ratioen er attraktiv, idet den kun behøver den risikofri rente, og målet er således ikke
afhængig af et benchmarkindeks. Ratioen tager højde for den totale risiko i stedet for at inddele
i systematisk og usystematisk. Desuden medtages Sharpe Ratio af Blake & Morey i 2000 og af
Morey & Gottesmann i 2006.
4.3.5
Kritik af valgte asset pricing modeller og performancemål
Rapportens anvendte asset pricing modeller har nogle svagheder, som vil blive kort beskrevet i
dette afsnit.
CAPM og 4-faktor modellen: CAPM er gentagne gange blevet udsat for empiriske tests,
som har klarlagt nogle af problematikkerne ved modellen. Sharpe-Lintners model bygger på,
at markedsporteføljen er mean-variance eﬃcient og dermed kan identificeres som tangenten til
11
’Hot hand’: Den fejlagtige tro på at en person, som tidligere har oplevet et heldigt udfald af en tilfældig
begivenhed, har større sandsynlighed for succes ved efterfølgende begivenheder
19
Markowitzs eﬃciente rand(1952). Modellen fastsætter, at forskellen i afkast på tværs af aktiver
fuldt ud kan forklares af
, altså at der eksisterer et lineært forhold mellem risiko og afkast.
Netop dette forhold samt konstantleddet ↵ var fokus for de tidligste empiriske studier. Her fandt
Black, Jensen & Scholes (1972), at den empiriske security market line, forholdet mellem
og det
forventede merafkast, er fladere end estimeret af CAPM; low-beta aktier returnerede højere end
forventet afkast og vice versa for high-beta aktier, således at konstanten i tidsserieregressioner
for low-beta aktier er positiv og negativ for high-beta aktier. Dette implicerer endvidere, at zerobeta aktier oplever et højere afkast end den risikofrie rente. Disse observationer har også lagt
grundlaget for den nyere forskning af CAPM eksempelvis ”Betting Againts Beta”, hvor Frazzini
og Pedersen (2014) finder, at high-beta porteføljer har lavere ↵-værdier end low-beta porteføljer.
Disse resultater er konsistente på tværs af internationale markeder.
Et yderligere kritikpunkt blev også fremlagt af Roll (1977). En grundsøjle i CAPM-teorien er
identificeringen af markedsporteføljen, men Roll fremlagde, at denne ikke er observerbar. Så reelt
er CAPM kun testet med proxyer for markedsporteføljen. På trods af de empiriske forsimplinger
indeholdt i CAPM, fandt Fama & French, at CAPM stadig kan forklare ca. 70% af variationen i
en akties afkast, hvilket er grundlaget for at medtage modellen i denne afhandling.
Kritikken af CAPM førte til Fama & Frenchs udvidelser af modellen (1992; 1993), idet CAPM
ikke er i stand til at forklare size- og value-præmien. En rimelig antagelse kan være, at investorer
også tænker på deres porteføljes korrelation med andre faktorer, altså at andre risikofaktorer
burde indarbejdes i modellen. Dette aﬀødte den tidligere diskuterede inkorporering af size- og
value-anormaliteterne og senere momentum-faktoren. Det er denne fulde model, der anvendes i
afhandlingen. Det er essentielt at tilføje, at 4-faktor modellen som udgangspunkt ikke har noget
teoretisk fundament, men at den blot er opstillet på baggrund af observerede anormaliteter i
markedet og dermed har sit grundlag i empirien.
De fleste performancemålinger står over for joint hypothesis problem. Gennem brug af asset
pricing modeller kan man identificere overnormale afkast i form af signifikante positive alphaer,
hvilket modsiger teorien om det eﬃciente marked (EMH) (Fama, 1970). Teorien om EMH siger, at
aktiepriser inkorporerer al tilgængelig information (stærk version) - ingen investeringsstrategier
kan derfor levere et overnormalt afkast. Derfor vil man ved at teste for signifikante alphaer
samtidig teste hypotesen om markedseﬃciens, hvilket betyder, man ikke kan sige, om resultaterne
reflekterer markedsineﬃciens eller en ringe asset pricing model. Afhandlingens fokus er dog ikke
at teste for signifikante positive alphaer og udføre en absolut performancemåling. Fokus er i stedet
at analysere relativ performance af forskellige ratingsystemer, hvorfor joint hypothesis problem
ikke behandles yderligere.
Sharpe Ratio: Ratioen er anvendt på lige fod med CAPM og 4-faktor modellen. Den er som
tidligere nævnt oftest anvendt grundet dens simplicitet og inkorporering af afkast og total risiko.
Men den simplificerede tilgang kan også være en fælde, idet ratioen straﬀer upside volatilitet lige
20
så meget som downside volatilitet. Et mulig alternativ kunne være Treynor ratioen (1991), som
benytter den systematiske risiko
i stedet den totale risiko
i,
eller Sortino ratioen, som netop
benytter downside semi-varians og derfor udelukkende fokuserer på downside risiko. Sharpe (1998)
argumenterede selv for, at Sharpe Ratioen ikke bør benyttes til at udvælge foreninger blandt en
gruppe af foreninger med det mål at bygge en multi-forenings portefølje. Forfatterne har dog
valgt Sharpe Ratioen grundet dens udbredelse i den akademiske litteratur samt af hensyn til dens
empiriske performance.
Denne afhandling bruger CAPM, 4-faktor modellen og Sharpe Ratio som out-of-sample performancemål. For at belyse Morningstar ratings forudsigelsesevne relativt til andre mål benyttes de
tre performancemål også som in-sample predictors for fremtidig performance.
4.3.6
Beregning af den danske SMB-, HML- og WML-faktor
Såvel som udvælgelsen af det korrekte benchmarkindeks er vigtig for asset pricing modellerne, er
de resterende faktorer essentielle for analysens resultater. Kenneth French har beregnet faktorerne
i 4-faktor modellen (SMB, HML og WML) for 5 af rapportens 6 geografiske grupper12 (French,
2015). Data for disse faktorer er derfor indhentet fra hans hjemmeside og er derefter blevet justeret
for valutakursændringer, da de alle er opgjort i USD. Faktorerne for det danske marked er dog
ikke tilgængelige på Frenchs hjemmeside, hvorfor forfatterne selv beregnet disse. Da de danskfokuserede foreninger udgør den tredjestørste geografiske gruppe, anses faktorerne som værende
uundværlige, således rapportens analyser bliver så retvisende som muligt. De danske faktorer
beregnes efter samme fremgangsmåde, som French selv benytter.
Beregningerne tager udgangspunkt i aktierne noteret i OMX Copenhagen Benchmark-indekset,
idet dette er det samme markedsindeks, der benyttes som benchmarkindeks for Danmark (se
bilag 7.2). Der er endvidere taget forbehold for, at de medtagede virksomheder skal have været
noteret på børsen i perioden oktober 2003 til og med oktober 2014. Kun 32 af de 42 noterede
aktier i OMXCB-indekset har data for hele denne periode. Derfor har vi inkluderet 10 tilfældigt
udvalgte13 aktier med data for hele perioden, hvilket øger datagrundlaget for beregningerne.
SMB- og HML-faktoren: For at konstruere SMB- og HML-faktoren er aktierne inddelt i to
grupper baseret på markedsværdi (big og small) samt 3 grupper baseret på B/M-ratio (value og
growth). Medianen for markedsværdierne er break point, mens B/M opdeles ved 30%- og 70%percentilerne. De øverste 30% er value-aktier, mens de nederste 30% er growth aktier. Dermed
er de midterste 40% neutrale. Dette skaber seks ligevægtede porteføljer for hver et-årige periode
(oktober-september), som vist i tabel 4.1. Porteføljerne resorteres derefter på årlig basis.
12
13
Asien eksl. Japan, Europa, Global, Japan og Nordamerika
Tilfældigt udvalgt under det krav at alle 10 branchesegmenter stadig skal være repræsenteret
21
Tabel 4.1: SMB- og HML-porteføljer
Median Markedsværdi
70% B/M percentil
30% B/M percentil
Small Value
Big Value
Small Neutral
Big Neutral
Small Growth
Big Growth
SMB faktoren er det gennemsnitlige månedlige afkast for de tre small-stock porteføljer minus det
gennemsnitlige afkast for de tre big-stock porteføljer. Det er dermed det månedlige merafkast en
investor ville have fået ved at investere i ’små’ kontra ’store’ virksomheder
1
1
SM B = (SmallV alue+SmallN eutral+SmallGrowth) (BigV alue+BigN eutral+BigGrowth)
3
3
(4.10)
HML faktoren beregnes på en lignende måde, men er i stedet det gennemsnitlige afkast for
value-porteføljerne minus det gennemsnitlige afkast for growth-porteføljerne. Faktoren beskriver
merafkastet ved at have investeret i value-aktier kontra vækst-aktier,
1
HM L = (BigV alue + SmallV alue)
2
1
(BigGrowth + SmallGrowth)
2
(4.11)
WML-faktoren: Indledningsvist rangeres porteføljerne igen baseret på markedsværdi. Herefter
rangeres aktierne på månedsbasis (periode t) afhængigt af deres kumulative afkast fra periode t-12
til t-2. Den seneste måned ekskluderes for at undgå short-term reversal eﬀects som f.eks. ekstreme
kursudsving forårsaget af underliggende likviditetsforhold eller lignende mikroøkonomisk struktur
(Jegadeesh, 1990; Lo and MacKinlay, 1990; Boudoukh, Richardson, and Whitelaw, 1994; Asness,
1994; Grinblatt and Moskowitz, 2004).
Dette følger Fama & Frenchs egen metode til beregning af WML. Igen benyttes 30%- og 70%percentilerne som break-points. De 30% bedst performende aktier fra t-12 til t-2 (past winners)
udgør winner-porteføljen for næste måned og omvendt for de 30% værst performende. Derefter
beregnes eﬀekten ved at trække det gennemsnitlige afkast for de to ’taber’-porteføljer fra det
gennemsnitlige afkast for de to ’vinder’-porteføljer,
1
W M L = (BigW inner + SmallW inner)
2
1
2
(BigLoser + SmallLoser)
(4.12)
SMB-, HML- og WML-faktorerne for de geografiske grupper kan ses i bilag 7.2. Det er værd at
bemærke, at SMB- og HML-faktorerne er beskedne for de valgte geografiske grupper og pågældende tidsperiode. En række studier har over de seneste år undersøgt tendensen og årsagerne
22
til, at faktorerne er aftaget i størrelse. En videre diskussion af dette er dog uden for rapportens
omfang.
4.4
Ratings baseret på valgte performancemål
Dette test bygger på samme teori som testet af ratingpersistens beskrevet i afsnit 4.2.1 med antalstabeller, mens opsætningen diﬀerentierer. Hvor persistenstestet undersøger Morningstarfordelingen i starten og slutningen af en periode, undersøger dette afsnit fordelingen af Morningstar
ratings i slutningen af afhandlingens tidsperiode og måler denne ift. ratings lavet på baggrund
af henholdsvis Sharpe Ratio, CAPM-alphaer og 4-faktor-alphaer. Dette giver i alt tre tests, da
Morningstars ratings fungerer som referencegruppe grundet afhandlingens fokus. Eftersom metoden tager udgangspunkt i samme tests som benyttet i persistensundersøgelsen, er den statistiske
del behæftet med samme forudsætningsbrud. Derfor udføres både afrapportering af p-værdier og
fortolkning af de observerede antalstabeller.
H0 -hypotesen i denne undersøgelse er, at der er uafhængighed mellem to ratingsystemer, og at en
fordeling lig Morningstars ikke opnås gennem de alternative metoder. Baggrunden for dette test
er, at en investeringsforening skal have mindst 10 års afkast for at opnå en ”fuld” Morningstar
rating jf. afsnit 2.2. En rating er et vægtet gennemsnit af foreningens 3-, 5- og 10-årige MRAR.
Denne afhandling anvender samme vægtning for at skabe en lignende rating med de tre alternative
predictors. Dette sker ved at beregne en 3-, 5- og 10-årig Sharpe Ratio, CAPM-alpha og 4-faktoralpha for hver investeringsforening. Analysen kræver en slutrating, der ikke sammenfalder med
en måneds afkast, og derfor foretages de 10-årige regressioner på 9 år og 11 måneders data. Dette
vurderes at være af ubetydelig karakter for resultaterne. For at kunne give ratingtildelingerne
findes det vægtede gennemsnit ved at anvende samme vægte som Morningstar. Det tildelte antal
af hver rating svarer til antallet, Morningstar har tildelt. Derved stilles de fire ratingsystemer lige.
De tre sammenligninger undersøger herefter, om Morningstars ratings er forskellig fra de andre.
23
4.5
Morningstar ratings’ forudsigelsesevne
Forudsigelsesevnen af Morningstar ratings testes både ved analyse af periodevis performance
gennem dummy variable regressioner samt test af performance ved månedlig reparametrisering.
Idet disse analyser udføres vha. regressioner, diskuteres forudsætningerne tilknyttet OLS først.
4.5.1
Forudsætninger for regressionsanalyse
Ordinary Least Squares: I afhandlingen benyttes Ordinary Least Squares (OLS) regression14
til at estimere de ukendte parametre herunder konstantleddet alpha, i CAPM og 4-faktor modellerne. Denne lineære estimator minimerer summen af de kvadrerede afvigelser. Disse residualer
er de vertikale afstande mellem de observerede værdier i et datasæt og de forventede værdier
forudsagt af en lineær regression. Den lineære regressionsmodel opskrives på matriceform som,
y = X +✏
(4.13)
Den afhængige variabel y og fejlleddet ✏ er n ⇥ 1 vektorer, hvor n repræsenterer antallet af
observationer. X er en n ⇥ p matrice, hvor p er antallet af forklarende variable plus en konstant.
er en p ⇥ 1 vektor, der estimeres netop ved at minimere de tidligere nævnte kvadrerede afvigelser.
Under de følgende fire Gauss-Markov antagelser er OLS den bedste, lineære, unbiased estimator
(BLUE) (Verbeek, 2012),
1. E(✏i ) = 0, i = 1, 2, 3, ..., n
2. {✏1 , ..., ✏n } og {x1 , ..., xn } er uafhængige
3. V ar(✏i ) =
2,
i = 1, 2, 3, ..., n
4. Cov(✏i , ✏j ) = 0 i, j = 1, 2, 3, ..., n, i 6= j
Den første betingelse siger, at den forventede værdi af fejlleddet skal være lig nul. Ved at inkludere
et konstantled i en regression bliver summen af residualerne lig nul. Den anden betingelse siger,
at samtlige fejlled skal være uafhængige af samtlige forklarende variable. Hvis dette er tilfældet,
siges de forklarende variable af være eksogene, og estimatoren er ikke biased. Dette er en stærk
antagelse, der faktisk implicerer, at de tre andre antagelser er opfyldte. Estimatoren er stadig
konsistent, hvis blot det samhørende fejlled og de forklarende variable for hver observation er
uafhængige, dvs. E(xi ✏i ) = 0. De to første betingelser antages opfyldt.
De sidste to antagelser betyder, at fejlleddene skal være homoskedastiske, og at de ikke må udvise
seriekorrelation. Dette kan opsummeres til, at varians-kovariansmatricen har en konstant værdi
14
På dansk kaldet “Mindste Kvadraters Metode”
24
i diagonalen og oﬀ-diagonalværdier lig nul, V ar(✏|X) =
2I
n.
Såfremt dette ikke er tilfældet, er
OLS ikke den mest eﬃciente estimator, hvilket betyder, at der findes andre estimatorer, der har
en lavere varians.
Residualerne fra regression af investeringsforeningernes fulde afkastserier er testet for homoskedasticitet vha. både Whites og Breusch-Pagans test. Whites test udføres ved at estimere modellen
med OLS under nulhypotesen om homoskedasticitet og efterfølgende regressere de kvadrerede residualer på de forklarende variable samt disses kvadrater og krydsprodukter. R2 -værdien fra denne
regression ganges med antallet af observationer, og dette giver en
2 -fordelt
observatorværdi. 59
af de 170 foreninger (35%) afviser ved Whites test nulhypotesen om homoskedasticitet og udviser
dermed signifikante problemer med heteroskedasticitet. For robusthed udføres Breusch-Pagans,
der minder om Whites test, men her regresseres residualerne blot på de forklarende variable
og ikke disses krydsprodukter og kvadrater. Ved dette test afviser 38 ud af de 170 foreninger
nulhypotesen om homoskedasticitet.
Residualerne er desuden testet for autokorrelation vha. Breusch-Godfreys test. Med dette test er
det muligt at undersøge, hvorvidt der er seriekorrelation op til lag nummer p i regressionerne.
Seriekorrelation er empirisk et typisk observeret problem, når der arbejdes med tidsserieobservationer. Af de 170 foreninger udviser hhv. 29 og 24 signifikante problemer med autokorrelation jf.
Breusch-Godfreys test med hhv. 1 og 12 lags. Der kan argumenteres for forskellige laglængder,
men forfatterne har valgt at teste med hhv. én måned og ét års lag.
De ovenstående resultater indikerer tydelige problemer med både heteroskedasticitet og seriekorrelation i en betydelig del af regressionerne. Dette betyder, at Gauss Markov antagelse tre og
fire er overtrådt, og OLS er dermed ikke længere eﬃcient. For at overkomme disse problemer
benyttes Newey-West’ standard-errors i regressionerne, da disse er robuste over for begge forudsætningsbrud. Antallet af robuste lags skal manuelt vælges, og her benytter forfatterne Verbeeks
(2012) formel, lags = T 1/4 , hvilket betyder, at der ved treårige tidsperioder (36 observationer)
er anvendt to lags, og at der ved syvårige tidsperioder (84 observationer) er anvendt tre lags.
Normalfordelte fejlled: Normalitet i fejlleddene er ikke en betingelse for, at OLS er BLUE, men
for at inferere på baggrund at regressionsresultaterne er normalitet en væsentlig betingelse. Efter
udførelse af Jarque-Beras test, der samlet vurderer residualernes skævhed og kurtosis, afvises
nulhypotesen om normalitet i 40 ud af 170 tilfælde. Disse normalitetsproblemer kan forsøges
afhjulpet ved at tage den naturlige logaritme til afkastseriene, som gjort i visse andre studier.
Dette gøres hovedsagligt, idet afkast kan være højreskævt fordelt (log normalfordelt), fordi der
eksisterer en nedre grænse for mulige tab, men ingen øvre grænse for mulige gevinster. Ingen
af afhandlingens bearbejdede afkast kommer i nærheden af den nedre grænse, og selvom der
observeres problemer med normalfordeling af data, er dette ikke forsøgt afhjulpet ved at bruge
logaritmiske afkast. De observerede normalitetsproblemer betyder, at inferens på baggrund af
regressionsresultaterne skal tolkes med varsomhed.
25
Multikollinearitet: Perfekt multikollinearitet mellem de forklarende variable leder til, at OLS
estimatoren ikke er unikt defineret, mens høj multikollinearitet leder til, at de estimerede koeﬃcienter fra regressionerne er upræcise (Verbeek, 2012). Problemer med dette kan opstå i afhandlingens multiple 4-faktor regressioner. Samtlige forklarende variable herfra er derfor undersøgt for
multikollinearitet, og dette er gjort ved skiftevis at regressere den ene forklarende variabel på de
resterende tre samt en konstant. R2 -værdien fra hver af disse regressioner er indsat i nedenstående
formel, der giver variansinflationsfaktoren (VIF) for hver af de k variable,
V IF (bk ) =
1
1 Rk2
(4.14)
Målet har en nedre grænse på nul, men ingen øvre grænse. Desto mere én variabel kan forklares
af de resterende variable, desto lavere bliver brøkens nævner, og desto større bliver VIF-faktoren.
Typisk benyttes en VIF-værdi på 5 eller 10 som grænse for, hvornår der er væsentlige problemer
med multikollinearitet. Den højest observerede værdi i afhandlingens forklarende variable er 3,09,
hvorfor det antages, at der ikke er problemer med multikollinearitet.
Unit roots: Det er generelt forventeligt, at kurser/priser vil være tidsafhængigt integrerede af
første eller anden orden, I(1) eller I(2), men at månedlige afkast, som afhandlingen arbejder
med, vil være stationære, dvs. I(0). Grafiske illustrationer af afhandlingens variable ser meget
stationære ud med et gennemsnit omkring 0. At regressere to ikke-stationære variable på hinanden
kan lede til spurious regression (Wooldridge, 2009), hvor resultaterne har høje forklaringsgrader
og signifikante værdier, men i realiteten er nonsens. Af denne årsag er afkastserierne og faktorerne
for en sikkerheds skyld undersøgt for at indeholde unit roots ved hjælp af Augmented DickeyFuller test med varierende lags og med/uden en konstant. Ydermere er det ikke-parametriske
Philips-Perron test anvendt, da det tager forbehold for eventuel seriekorrelation i de enkelte
variable. Ingen af de undersøgte variable fastholder de to tests nulhypotese om én eller flere unit
roots. For robusthed er KPSS-test af variablene også udført. Dette test har modsatte hypoteser
af de to førnævnte, og ingen af variablene er i nærheden af at afvise nulhypotesen om, at de ikke
indeholder unit roots.
4.5.2
Analyse af periodevis performance
Den første af de to metoder, vi anvender til at undersøgelse forudsigelsesevnen af Morningstar
ratings, er en dummy variable regressionsanalyse. Med dette test er det muligt både at undersøge,
hvorvidt der eksisterer et monotont forhold mellem ratinggrupperne, og hvorvidt Morningstars
5-stjernede gruppe performer bedre end de alternative ratingsystemers 5-stjernede gruppe.
4.5.2.1
Test for monotont forhold
Testet består af at rangere grupper baseret på en in-sample periode og derefter følge disse grupper
out-of-sample. Fremgangsmåden følger Blake & Moreys (2000) og Morey & Gottesmanns (2006),
26
og ligesom i disse to artikler arbejder vi med 3-årige perioder. Perioden på 3 år er valgt som
et trade-oﬀ mellem at have et tilstrækkeligt antal observationer i regressionerne og at have et
passende antal out-of-sample perioder af rimelig længde. Analysen foretages som et rullende
vindue, og det giver i alt 5 delvist overlappende out-of-sample perioder. En illustration af dette
kan ses i tabel 4.2. Afhandlingens årsinddeling går fra oktober til september, således ’År 1’ løber
fra oktober 2004 til og med september 2005.
Tabel 4.2: Tidsperioder for 3-års test
År 1 År 2 År 3 År 4 År 5 År 6 År 7 År 8 År 9 År 10
1. in-sample
1. out-of-sample
2. in-sample
2. out-of-sample
3. in-sample
3. out-of-sample
4. in-sample
4. out-of-sample
5. in-sample
5. out-of-sample
In-sample rangeringsmål: Morningstar Rating, Sharpe ratio, CAPM og 4-faktor
Out-of-sample performancemål: Sharpe Ratio, CAPM og 4-faktor
Der arbejdes med i alt fire rangeringsmål: Morningstar rating, Sharpe ratio, CAPM og 4-faktor
model. Der ses ikke udelukkende på Morningstar som ratingsystem, da en vurdering af forudsigelsesevnen kræver sammenligning med alternative mål. Derudover er det interessant at se, hvorvidt
andre mål er i stand til at forudsige performance bedre end Morningstar.
Rangering af Morningstar sker alene efter de tildelte ratings ultimo in-sample perioden. At rangere investeringsforeningerne baseret på hvert af de tre alternative mål kræver, at de enkelte
foreninger evalueres i den 3-årige in-sample periode. Efterfølgende sorteres foreningerne i faldende orden, og de modtager så en rating. Antallet af tildelte ratings til de alternative predictors
er tilsvarende Morningstars, så de fire ratingsystemer er ligestillede mht. antallet af foreninger i
hver stjernegruppe. Denne evaluering, rangering og ratingtildeling foretages for alle fem in-sample
perioder.
Foreninger indgår kun i en in-sample rangering, hvis de har tilstrækkeligt data til også at indgå
i out-of-sample perioden. Antallet af inkluderede foreninger i testet falder derfor, efterhånden
som det rullende vindue bevæger sig frem i analyseperioden. Datasættet indeholder kun enkelte
1-stjernede foreninger, og i den sidste periode er der slet ingen. Dette svækker muligheden for
at påvise eventuelle forskelle mellem denne gruppe og de øvrige. En oversigt over fordelingen af
ratings og antallet af foreninger i de forskellige tidsperioder kan ses i bilag 7.2.
Dernæst performanceevalueres de enkelte foreninger i de fem 3-årige out-of-sample perioder ud fra
afhandlingens tre valgte performancemål: Sharpe Ratio, CAPM og 4-faktor modellen. Dette gøres
27
for samtlige fire ratingsystemer. Resultaterne fra denne databehandling omkodes til dummy variable, der repræsenterer en forenings tildelte ratinggruppe. Dermed kan foreningernes performance
linkes til deres ratinggruppe.
Oplysningen om hver forenings rating og samhørende out-of-sample performance indsættes i nedenstående dummy-variable regression,
Pi =
5
+
4 D4i
+
3 D3i
+
2 D2i
+
1 D1i
+ ✏i
(4.15)
Pi = Out-of-sample performancemål dvs. enten Sharpe Ratio, CAPM- eller 4-faktor-alpha;
D4i = 1 hvis der er tale om en 4-stjernet forening målt efter Morningstar rating eller et
alternativt ratingsystem, 0 hvis dette ikke er tilfældet;
D3i = 1 hvis der er tale om en 3-stjernet forening målt efter Morningstar rating eller et
alternativt ratingsystem, 0 hvis dette ikke er tilfældet;
D2i = 1 hvis der er tale om en 2-stjernet forening målt efter Morningstar rating eller et
alternativt ratingsystem, 0 hvis dette ikke er tilfældet;
D1i = 1 hvis der er tale om en 1-stjernet forening målt efter Morningstar rating eller et
alternativt ratingsystem, 0 hvis dette ikke er tilfældet;
i =
1 til N, hvor N er antallet af foreninger i den pågældende sample.
En medtagelse af alle fem dummyvariable i regressionerne ville skabe perfekt multikollinearitet. De
5-stjernede foreninger fungerer som referencegruppe for regressionerne, der udføres med Whitefejlled grundet heteroskedasticitet. En undersøgelse af monotoni i Morningstars ratingsystem
foretages ved at se, hvordan de fire øvrige ratinggrupper performer sammenlignet med den 5stjernede gruppe, hvor performance f.eks. måles ved Sharpe Ratio. I tilfælde hvor der er et perfekt
monotont forhold, vil koeﬃcienterne for dummy 4-1 alle være signifikant negative i stigende
størrelse. Hvis dette bliver udfaldet af regressionerne, er det pågældende ratingsystem i stand
til at identificere de foreninger, der performer relativt bedst. Hvis koeﬃcienterne for dummy 4-1
derimod er signifikant positive, betyder det, at den 5-stjernede gruppe for ratingsystemet har
klaret sig signifikant dårligere i out-of-sample perioden.
Hver af de fire ratingsystemer kan evalueres ved tre performancemål. Med fem perioder i alt foretages 15 regressioner for hvert ratingsystem. Hver af disse regressioner har fire dummy variable,
der indikerer ratingruppen, og dermed evalueres systemer på 60 koeﬃcienter. Der er altså 60 muligheder for, at et ratingsystems 5-stjernede gruppe out- eller underperformer de øvrige ratings
(4-1).
28
I de ovenfor diskuterede regressioner fungerer den 5-stjernede gruppe som reference. Et ratingsystem, der er i stand til at identificere et monotont forhold, vil også kunne udpege 4-stjernede
foreninger, som efterfølgende outperformer de 3-1 stjernede foreninger, osv. Derfor udføres de
samme dummy variable regressioner én gang til, men løbende udelades en ratinggruppe, og den
højest ratede af de tilbageværende fungerer som ny reference. Dermed undersøges der også, om
koeﬃcienterne for ratinggruppe 3 er signifikant forskellige fra ratinggruppe 2-1, og om koeﬃcienterne for ratinggruppe 2 er signifikant forskellige fra ratinggruppe 1.
Resultatet af dummy regressionerne præsenteres og diskuteres i afsnit 5.4.1.1. Som tidligere benævnt er der ingen 1-stjernede foreninger i den sidste out-of-sample periode, hvorfor det heller
ikke er muligt at inkludere dem i regressionerne for den femte periode.
4.5.2.2
Niveautest på tværs af ratingsystemer
Dette relative tests hensigt er at sammenligne Morningstars 5-stjernede foreningers performance
med de tre alternative predictors 5-stjernede foreninger. Metodologien følger til dels den samme som i ovenstående afsnit (4.5.2.1), idet der måles på fem out-of-sample perioder. Forskellen
er, at dette niveautest udelukkende er interesseret i at vurdere performance af de 5-stjernede
foreninger. Denne vurdering foretages som en relativ performancemåling, hvor Morningstar som
referencegruppe vurderes i forhold til de øvrige tre ratingsystemer. Det er interessant at se, om
de foreninger, Morningstar udpeger som de bedste, faktisk opnår et signifikant højere afkast end
de tre alternative predictors.
Testet benytter de samme 5-stjernede grupper som ved det monotone test, men dummy variablene
omkodes. Dermed fås 15 regressioner (fem perioder og tre performancemål), som hver indeholder
tre dummy variable. Det er derfor muligt, at Morningstar out- eller underperformer de tre andre
ratingsystemer i 45 tilfælde.
Alle 15 regressioner følger nedenstående form. Det er kun perioderne og performancemålene, der
varierer,
Pi =
0
+
SR
1 Di
+
CAP M
2 Di
+
4F
3 Di
+ ✏i
(4.16)
Pi = Out-of-sample performancemål dvs. enten Sharpe Ratio, CAPM- eller 4-faktor-alpha;
DiSR = 1 hvis der er tale om en 5-stjernet forening iflg. Sharpe Ratio rating, 0 hvis dette
ikke er tilfældet;
DiCAP M = 1 hvis der er tale om en 5-stjernet forening iflg. CAPM rating, 0 hvis dette ikke
er tilfældet;
29
Di4F = 1 hvis der er tale om en 5-stjernet forening iflg. 4-faktor rating, 0 hvis dette ikke er
tilfældet;
i =
1 til N, hvor N er antallet af 5-stjernede foreninger i den pågældende sample.
Morningstar er valgt som referencegruppe, fordi dette ratingsystem er i fokus. Resultaterne fra
de 45 regressioner præsenteres i afsnit 5.4.1.2.
4.5.3
Test af performance ved månedlig reparametrisering
Ved dette test foretages der også både en test for det monotone forhold og niveautest mellem de
5-stjernede grupper.
4.5.3.1
Test for monotont forhold
Dummy-variable testet, der er udført i tråd med Blake & Moreys (2000) fremgangsmåde, bruger
tre års in-sample og tre års out-of-sample. Dette stiller et relativt stort datakrav til foreninger,
der er ophørt i løbet af den 10-årige periode, og samtidig skal survivorship bias håndteres. Patton
& Timmermann (2010) har udviklet et test, der har til formål at undersøge, om der eksisterer
et monotont forhold mellem forskellige grupper. I vores tilfælde vil vi teste, hvorvidt 5-stjernede
foreninger har et større risikojusteret afkast end 4-stjernede, og hvorvidt disse er større end 3stjernede, osv. Hvor dummy variable testet var baseret på fem delvist overlappende 3-årige out-ofsample perioder, består denne analyse af at risikojustere én stor periode på i alt 84 observationer
(7 år) for hver ratinggruppe. Dummy variable testet fra Blake & Morey (2000) testede enkeltvis
de 5-stjernede foreningers risikojusterede performance mod hver af de øvrige fire stjernegrupper.
Resultatet af dette test giver ét svar på, om der er et monotont forhold imellem et ratingsystems
stjernegrupper.
Tilsvarende dummy-variable testet er der i alt fire in-sample ratingsystemer bestående af Morningstar, Sharpe Ratio, CAPM og 4-faktor. I dette test fungerer kun de to sidstnævnte som
out-of-sample performancemål. Denne gang er det ikke muligt at medtage Sharpe Ratio som
out-of-sample performancemål, fordi metoden har krav om, at målene skal være tidsvarierende,
hvilket uddybes senere i dette afsnit. Rangeringerne laves ud fra den mindst mulige out-of-sample
tidshorisont, hvilket er én måned. Der er dermed næppe tale om en relevant handelsstrategi for
almindelige investorer, da en portefølje af investeringsforeninger i så fald skal reevalueres hver
måned. At bruge dette test, der udnytter det fulde datasæt og dets månedlige observationer,
giver en form for robusthed, der er tilsvarende modelleringen af ratings i overgangsmatricerne.
Der dannes fem stjerneporteføljer ved at følge den seneste måneds rating i én periode. Dette
starter først fra den 36. måned, da de tre alternative ratingsystemer har en tvungen in-sample
30
periode på tre år til at danne deres rangeringer. For at give fuld sammenlignelighed arbejdes der
med samme periodelængde på tværs af ratingsystemerne. Dermed evalueres hver forening med de
tre alternative performancemål baseret på de første 36 måneder. Dette skaber så rangeringerne,
der bruges til at udvælge stjernegruppernes afkast i den 37. måned. Dette gøres som et rullende
vindue på månedlig basis for alle fire ratingsystemer, indtil den 119. observation er den sidste insample måned, og den 120. observation er den sidste out-of-sample måned. Med denne håndtering
kan aktieforeninger, der ikke eksisterer i hele den 10-årige periode, blot falde fra løbende, fordi
deres afkast kun inkluderes så længe, de eksisterer. Med andre ord laves der kun en in-sample
udvælgelse af en given forening, hvis den har et afkast i den kommende måned. Dette har flere
fordele, herunder at datakravet sammenlignet med dummy-variable testet falder fra 61 måneder
til 37 måneder, for at en forening kan indgå. Det ændrede datakrav betyder, at der initialt indgår
170 foreninger versus 154 i dummy-variable testet, men at der i de sidste periode er 109 foreninger
tilbage mod 110.
Endnu en gang bestemmes antallet i hver ratinggruppe ud fra det antal, Morningstar har tildelt.
Dermed er der igen lige mange foreninger indeholdt i hver ratinggruppe på tværs af ratingsystemerne. Ved ratingsystemerne baseret på CAPM og 4-faktor modellen er der valgt at rangere
på alphaernes t-statistikker i stedet for de observerede alphaer. Det betyder, at den største, observerede alpha ikke nødvendigvis modtager en 5-stjernet rating, hvis denne har en meget høj
robust standard-error, hvilket resulterer i en lille t-statistik. For hver af de 84 (7 år) out-of-sample
måneder, tages det gennemsnitlige afkast for de foreninger, der har den samme rating. På denne
måde får hver ratinggruppe et gennemsnitligt, månedligt merafkast, og det er disse out-of-sample
porteføljer, der risikojusteres vha. CAPM og 4-faktor modellen.
Regressions-, beregnings- og sorteringsarbejdet, der ligger til grund for analysen, består af mellem
170 og 109 regressioner i hver af de 84 in-sample perioder, der efterfølgende sorteres månedligt
efter performance. Med fire ratingsystemer, som hver indeholder fem stjerneporteføljer, giver det
i alt 20 porteføljer. De kan noteres som ri,t , hvor t = 1, ..., 84 og rating i = 1, ..., 5 for hvert
ratingsystem.
Hver af disse 20 stjerneporteføljer risikojusteres med hhv. CAPM og 4-faktor modellen. Dette
giver én alpha-værdi fra hver estimation. Nedenfor ses et eksempel på 4-faktor regressionerne.
CAPM-regressionerne udføres tilsvarende, men her udelades SMB, HML og WML,
ri,t = ↵
ˆ i + ˆ1 rt,M + ˆ2 SM Bt + ˆ3 HM Lt + ˆ4 W M Lt + ✏ˆi,t
(4.17)
Alphaen og residualerne bruges til at lave et estimat for 84 tidsvarierende alphaer. Denne metode
blev bl.a. brugt af Blake & Morey (2000), der kaldte dem ”modified alphas”. Disse dannes ved at
tage alphaen og tillægge månedens residual fra regressionen,
31
(4.18)
↵
ˆ i,t = ↵
ˆ i + ✏ˆi,t
Hver af de fem stjernegrupper på tværs af ratingsystemerne og performancemålene får dermed
et estimat for deres månedlige risikojusterede afkast. Estimatet kan være enten positivt eller
negativt afhængigt af alpha-estimatet selv, og hvordan periodens faktiske observation er placeret
i forhold til det lineære regressionsestimat (residualet). De gennemsnitlige tidsvarierende alphaer
T
P
findes ved µ̂i = (1/T )
↵
ˆ i,t . Resultatet af dette giver selvfølgelig bare de oprindelige alphat=1
estimater. Senere i afsnittet introduceres en bootstrapping-metode, der gør det nødvendigt at
have tidsvarierende alpha-estimater. For hvert af de fire ratingsystemer ønsker vi at vide, om den
gennemsnitlige alpha for den 5-stjernede gruppe er større end den 4-stjernede gruppes, osv. Dvs.
at der undersøges, hvorvidt µ5 > µ4 > µ3 > µ2 > µ1 .
For at det kan testes, hvorvidt de risikojusterede afkast er stigende fra lave til høje ratings, defineres
i 1
⌘ µi
µi
1,
i = 2, ..., 5, der samlet kan skrives som en søjlevektor,
=[
1 , ...,
4]
0.
Denne søjlevektor indeholder forskellene mellem ratinggruppernes risikojusterede afkast.
Testet for det monotone forhold tager følgende hypoteser:
H0 :
0
H1 :
>0
Nulhypotesen er, at forholdet mellem ratinggrupperne er fladt eller svagt faldende, og alternativhypotesen er, at forholdet er stigende. En afvisning af nulhypotesen betyder altså, at det givne
ratingsystems risikojusterede afkast besidder et monotont forhold, således at højtratede foreninger
har de højeste risikojusterede afkast og vice versa.
Alternativhypotesen kan omskrives til H1 : min
i=1,.., 4
i
> 0, således der testes, om den mindste
forskel mellem alphaerne er større end 0. For at teste om dette er tilfældet introduceres teststatistikken,
JT = min ˆ i
i=1,.., 4
(4.19)
hvor populationsværdierne er erstattet med sampleværdierne. Hvis den mindste af de fire alphaforskelle er større end nul, så er de alle større end nul, og i disse tilfælde bør nulhypotesen
forkastes.
Den estimerede vektor ˆ = [ ˆ 1 , ..., ˆ 4 ]0 er asymptotisk normalfordelt med en konstant varianskovariansmatrice. Det findes i undersøgelsen ikke rimeligt at anvende asymptotiske egenskaber,
der baserer sig på T ! 1, når undersøgelsen kun indeholder 84 tidsobservationer. Dette er jf.
Patton & Timmermann (2010) et typisk empirisk problem, hvorfor de i deres testudvikling har
32
benyttet en bootstrap-metode, der hverken behøver at estimere varians-kovariansmatricen eller
gøre sig antagelser om fordelingen af data - der er tale om et ikke-parametrisk test. Såfremt man
har et stort, normalfordelt datasæt, så bør man ikke benytte denne bootstrap-metode.
Bootstrap-metoden fungerer i praksis ved, at der i stedet for at benytte de sædvanlige 84 tidsobservationer kronologisk tilfældigt udtrækkes tidsvarierende alphaer fra hver portefølje med tilbagelægning af disse tilbage i observationssættet. Dette giver et forudbestemt antal bootstraps med
nye tidsindeks, og disse nye porteføljer kan noteres som,
(b)
µ̂i = (1/T )
T
X
(b)
↵
˜ i,⌧ (t)
(4.20)
t=1
hvor ⌧ (1), ..., ⌧ (84) er de nye tilfældigt udtrukne tidspunkter, i = 1, ..., 5 repræsenterer stjernegruppen, og b = 1, ..., B er antallet af bootstraps.
De tilfældigt udvalgte tidsindeks, ⌧ (t), er ens på tværs af porteføljerne for at bevare eventuelle
tidsmæssige afhængigheder. Afhandlingen bruger 1.000 bootstraps. De skabte afkastserier behandles på samme måde som de observerede, og derfor regnes de gennemsnitlige forskelle mellem
ratinggrupperne. Ligesom det observerede data har en test-statistik, så har de bootstrappede
dataværdier det også,
(b)
(b)
JT = min ( ˆ i
i=1,.., 4
ˆ i ) , b = 1, 2, ..., 1000
(4.21)
Ved at fratrække de faktisk observerede gruppeforskelle fra de bootstrappede gruppeforskelle
pålægges testet nulhypotesen om, at forskellen mellem disse to er nul. Dette er det strengeste krav,
der kan stilles ud fra nulhypotesen. Det er parallelt til et t-test, hvor værdien fra nulhypotesen
fratrækkes en observeret værdi for at se, om forskellen er forskellig fra nul. Slutteligt beregnes
p-værdien fra testet ved,
B
1 X
(b)
p̂ =
1{JT > JT }
B
(4.22)
b=1
hvor udtrykket, der summeres over, bliver 1, hver gang den mindste observerede bootstrappede
test-statistik er større end den faktiske observerede test-statistik. Hver gang det modsatte er tilfældet, så bliver den lig 0. Fortolkningen er, at vi er interesserede i, om værdien af test-statistikken
er høj eller lav under nulhypotesen.
Til udførelse af testet for et monotont forhold anvendes en kode, der er tilgængelig på Andrew
Pattons hjemmeside15 . Koden og testet er oprindeligt udviklet til at undersøge monotoni ift.
CAPM eller Liquidity Preference Hypothesis, men kan jf. Patton & Timmermann (2010) også
benyttes til risikojusterede mål. Det skal derfor bemærkes, at vi ikke har stået for udviklingen af
15
Link: http://public.econ.duke.edu/~ap172/
33
koden, men at vi har indsat de tidsvarierende alphaer for de respektive porteføljer og valgt, hvordan testet skal udføres. Ved hjælp af koden bootstrappes fordelingen under nulhypotesen. Hvis få
bootstrap-teststatistikker (under 5%) er af samme størrelse som den observerede test-statistik, så
må den observerede være langt væk fra nulhypotesen. Derfor forkastes H0 , og alternativhypotesen
om et monotont stigende forhold accepteres. Hvis mange bootstrap-teststatistikker er større end
den observerede, så er p-værdien høj, og nulhypotesen kan ikke forkastes. Der udføres 1.000 bootstraps, så hvis mindre end 50 af de bootstrappede værdier er større end de observerede, påvises
der et monotont forhold ved et 5% signifikansniveau.
4.5.3.2
Niveautest på tværs af ratingsystemer
Den ovenfor beskrevne metode anvendes tilsvarende til at teste for et fladt forhold på tværs af
ratingsystemerne med Morningstar som referencegruppe. Her fokuserer afhandlingen udelukkende
på de porteføljer, der bliver udpeget som 5-stjernede. Vi undersøger altså, om de foreninger,
Morningstar udpeger som 5-stjernede, er i stand til at outperforme de, der findes de tre alternative
predictors.
Resultaterne fra de to tests præsenteres i afsnit 5.4.2.
34
5
Empiriske resultater
Resultaterne af afhandlingens analyser præsenteres i dette afsnit. Opstillingen følger samme rækkefølge som metodeafsnittet.
5.1
In-flow på tværs af grupper
I tabel 5.1 ses resultaterne af kapital in-flow analysen. Det er vigtigt at huske, at der er tale
om en estimationsmetode, hvor der ses bort fra udbytter og mulige fusioner. Der ser ud til at
eksistere et monotont forhold mellem ratings og kapital in-flow til foreningerne fra rating 2-5. I
gennemsnit over den 10-årige periode oplevede de 1 - 3 stjernede foreningerne out-flows, mens
de 4- og 5-stjernede foreninger oplevede in-flows. Resultaterne for de 1-stjernede foreninger er,
ligesom i resten af rapporten, baseret på meget få observationer. Ved histogramanalyse og vha.
Jarque-Beras test for normalitet identificeres alvorlige problemer. Data er både højreskævt, og
der er mange ekstreme observationer. Det gennemsnitlige månedlige in-flow for de 1-stjernede
foreninger er den eneste af de fem stjernegrupper, der ikke er signifikant forskellig fra nul ved et
t-test. Det er desværre ikke muligt at tolke og inferere på baggrund af disse t-statistikker grundet
normalitetsproblemerne.
Tabel 5.1: Månedligt kapital in-flow for Morningstargrupper
Rating
1
2
3
4
5
Gennemsnitligt kapital in-flow, %
-0,13
-0,76
-0,38
0,23
0,66
Den umiddelbare positive sammenhæng mellem ratings og kapital in-flow stemmer overens med
resultaterne fra tidligere studier (Gruber, 1996; Guercio and Tkac, 2002; Guercio, D. D. and
Tkac, 2003). Det er dog vigtigt at understrege, at ovenstående diskussion om sammenhæng mellem
Morningstar ratings og kapital in-flow udelukkende er baseret på korrelation. Der er intet grundlag
for kunne at vurdere kausalitet. Ydermere kan det nævnes, at der højst sandsynligt også findes
andre faktorer end Morningstar ratings, der kan påvirke kapital in-flowet til investeringsforeninger.
Andre undersøgelser har forsøgt at forklare in-flow ud fra variable som f.eks. Morningstar rating,
risikojusteret afkast, ledelsesegenskaber og lignende (Sirri and Tufano, 1998; Goetsmann and
Peles, 1997).
35
5.2
5.2.1
Persistens i ratings
Antalstabeller på tværs af tid
En opsummering af resultaterne fra de 55 antalstabeller kan ses i bilag 7.2, der viser de to pværdier for hver test. Der er stort sammenfald mellem ratinggrupperingerne, og det kan bl.a.
bemærkes, at særligt inden for en 2-årig horisont er samtlige resultater signifikante. Ved alene
at vurdere p-værdierne tyder det i høj grad på, at der er persistens i ratings grundet det store sammenfald mellem analyserne. Af de 110 tests fastholder kun 13 (12%) nulhypotesen om
uafhængighed mellem start- og sluttidspunkterne. I de resterende 97 tests (88%) vælges alternativhypotesen om afhængighed mellem to tidspunkter og dermed persistens. Resultaterne stemmer
overens med Khorana & Nelling (1998). Desværre er observatorværdierne fejlbehæftede, da det
lave antal foreninger i analysen medfører, at en væsentlig del af de 25 felter i hver antalstabel har
forventede værdier under 5.
Tabel 5.2: Antalstabeller: Start- og slutrating
Okt 2004 - Okt 2007
Okt 2007 - Okt 2010
Fra\Til
1
2
3
4
5
Fra\Til
1
2
3
4
5
1
2
3
1
0
0
1
0
0
4
1
0
2
4
14
15
9
0
2
1
5
12
3
0
3
1
8
34
22
5
3
1
7
27
14
4
4
1
2
12
12
10
4
1
3
16
15
7
5
0
0
1
5
7
5
0
0
10
5
3
2
p-værdi: 0, 000
2
Likelihood ratio p-værdi: 0, 000
p-værdi: 0, 309
Likelihood ratio p-værdi: 0, 124
Tabel 5.2 viser eksempler på to af de 55 antalstabeller. Den første viser ændringen i fordelingen af
ratings fra datasættets begyndelse i oktober 2004 til oktober 2007, og den anden viser udviklingen
fra oktober 2007 til oktober 2010. Både
2-
og likelihood ratio-testet afviser nulhypotesen om
uafhængighed for observationerne i den første periode, men ingen af de to tests er i stand til dette i
den anden periode. Det er gældende for begge antalstabeller, at ingen 1-stjernede foreninger endte
som 5-stjernede eller omvendt. Det interessante i antalstabellerne er diagonalværdierne, da de
viser, hvor mange foreninger endte med samme rating, som de havde i begyndelsen af perioden.
I den første periode falder observationerne relativt pænt i diagonalen, men der er dog sket et
væsentligt antal skift til naboratings. I den anden antalstabel blev én af de initialt 1-stjernede
36
foreninger 4-stjernet, og hele 10 ud af de 5-stjernede blev 3-stjernede. Fra en ren visuel vurdering
ser det ud til, at det var få forskelle i ratingplaceringer mellem de to antalstabeller, der var årsag
til, at den første er signifikant ned til 1%, og den anden har p-værdier på hhv. 12% og 31%. Dette
understreger blot, at test-værdierne skal tolkes med varsomhed.
5.2.2
Estimerede overgangsmatricer
I dette afsnit behandles ratings for de 187 danske aktieforeninger. Når en forening ophører med at
eksistere, er den i datasættet noteret med rating 0 i den efterfølgende periode, og herefter indgår
den ikke længere. Dette giver i alt 17.948 ratingobservationer.
Til beregning af generatormatricen findes først oplysningen om, hvor mange skift der er sket
fra rating til rating over datasættets 10-årige periode. En oversigt over dette ses i tabel 5.3. Da
det ikke tolkes som et skift at fastholde en rating, er diagonalværdierne i matricen lig nul. Fra
matricen ses det, at det typisk er ’nabo-ratings’, som der skiftes til. Dette er også forventeligt, da
en rating består af mange års data, og det vil være usandsynligt, at mange foreninger vil formå at
skifte flere ratingniveauer op (ned) baseret på én måneds god (dårlig) performance. Dette antages
også at være årsagen til, at der i hele perioden ikke er en eneste 1-stjernet forening, der direkte
bliver 5-stjernet eller omvendt. Der sker i alt 244 skift væk fra en 5-stjernet til en anden rating,
og heraf er de 242 til en 4-stjernet rating. I alt observeres 2.524 skift mellem ratings ud af i alt
17.870 ratingobservationer (fratrukket skift til rating 0). Med andre ord forventes foreninger i
gennemsnit af skifte rating ca. hver 7. måned.
Tabel 5.3: Antal skift mellem ratinggrupper
Fra\Til
1
2
3
4
5
0
Total
1
0
112
1
0
0
0
113
2
110
0
325
1
1
0
437
3
4
341
0
554
1
0
900
4
0
4
582
0
242
0
828
5
0
0
1
245
0
0
246
0
6
23
31
14
4
0
78
Total
120
480
940
814
248
0
2.602
Den anden oplysning, der skal bruges til at beregne generatormatricen, er det samlede antal 365dages år, der er brugt i hver rating. Disse oplysninger ses i bilag 7.2, og de svarer til integralet,
der blev diskuteret i det metodiske afsnit. Med de to ovenstående oplysninger er det muligt at
ˆ jf. metodeafsnittet. Med
beregne et estimat for hver ˆ i,j , der skal indgå i generatormatricen, ⇤
denne generatormatrice har forfatterne beregnet overgangsmatricer med forskellige tidshorisonter
37
for udviklingen i ratings, og det fremkomne resultat for 1-månedsmatricen kan ses nedenfor i
tabel (5.4). Overgangsmatricerne for de resterende tidsperioder kan findes i det vedlagte data.
Tabel 5.4: 1 måneds overgangsmatrice, % sandsynligheder
P 1/12 =
Fra\Til
1
2
3
4
5
0
1
80,8
3,4
0,1
0
0
0
2
16,4
84,5
4,1
0,2
0
0
3
1,7
10,7
87,8
8,5
0,5
0
4
0,1
0,6
7,4
87,3
9,8
0
5
0
0
0,2
3,8
89,5
0
0
1,2
0,8
0,4
0,3
0,2
100
Fortolkningen af overgangsmatricen er, at over den 10-årige periode forventedes 1-stjernede foreninger i 80,8% af tilfældene at beholde den samme rating i næste måned. For 16,4% af de
1-stjernede foreninger vil man forvente, at de bliver 2-stjernet i stedet. På denne helt korte tidshorisont har de 5-stjernede foreninger den højeste fastholdelsessandsynlighed af alle på 89,5%.
Ligesom i opgørelsen over antal skift fra rating-til-rating, er de forventede skift koncentreret
omkring naboratings.
Det er især fastholdelsessandsynlighederne, der er interessante for persistensundersøgelsen, og
disse findes i diagonalen på overgangsmatricerne. Resultaterne fra beregning og aflæsning af
overgangsmatricerne med længere tidshorisonter er indsat i tabel 5.5.
Tabel 5.5: Fastholdelsessandsynligheder, %
Rating \ Tid
5
4
3
2
1
1 md.
90
87
88
85
81
3 mdr.
73
69
71
63
54
6 mdr.
55
53
56
44
32
1 år
35
40
43
28
14
3 år
14
30
32
13
3
5 år
11
27
29
10
2
7 år
10
24
26
9
2
Fra tabellen står det klart, at fastholdelsessandsynligheder er hurtigt aftagende selv inden for helt
korte tidshorisonter. Dette er også tydeligt efter en visuel inspektion af datasættet, der afslører,
at selv foreninger med en rimelig fast rating over tid udsættes for enkelte ratingskift. Dette er en
konsekvens af Morningstars ratingmetodologi, der opdateres månedligt og tildeles relativt. Efter
seks måneder vil man kun forvente, at lidt over halvdelen af de 5- og 4-stjernede foreninger har
fastholdt deres ratings. Disse tal er fortsat hastigt faldende på længere sigt, og efter tre år havde
kun 14% af de højest ratede foreninger stadig den høje rating. Resultaterne er i tråd med både
38
Hereil et al. (2010) og Garnier & Pujol (2007), der har undersøgt europæiske og amerikanske
ratings.
5.2.3
2-
Delkonklusion for persistens i ratings
og likelihood ratio-testet viste overordnet tegn på, at ratings er faste over tid særligt inden for
en to-årig horisont. Disse to test er dog behæftet med væsentlige forudsætningsbrud. Ydermere
udelader metoden oplysninger om skift mellem start-/sluttidspunktet og negligerer samtidig et
potentielt survivorship bias. Af ovennævnte grunde inkluderede vi endnu en analysemetode, der
vha. overgangsmatricer viser sandsynlighederne for at fastholde ratings over forskellige tidshorisonter. Tilgangen udnytter al information fra datasættet, og derfor straﬀes ratingskift mellem
start-slut tidspunkter. Fra denne undersøgelse ser ratings langtfra persistente ud, da kun knap
halvdelen af de højtratede fonde forventes af fastholde sin rating efter et halvt år. På en treårig
horisont, der er udgangspunktet for den første performanceanalyse, forventes kun 14% af de 5stjernede at fastholde sin rating. Dette leder til den overordnede konklusion, at ratings tyder på
at være relativt ustabile.
5.3
Ratings baseret på alternative performancemål
I alt 109 foreninger har data for hele perioden, og derfor består analysen af at evaluere disse på 3-,
5-, og 10-årig basis ved hvert af de tre performancemål. Databehandlingen og sorteringen kan ses
i de elektroniske bilag. Baseret på ratings er der lavet tre antalstabeller, hvor Morningstars ratingfordeling sammenlignes med hhv. Sharpe Ratio, CAPM og 4-faktor modellens ratingfordeling.
Ligesom ved test af ratings overtræder antalstabellerne forudsætningen om, at ingen celler må
have forventede værdier lavere end 5. Også i denne analyse er det diagonalerne, der er interessante.
Ratingfordelingerne i de tre undersøgelser er summeret i tabel 5.6, og testresultaterne leder til
to konklusioner. Først og fremmest tyder det på, at et ratingsystem baseret på Sharpe Ratio
ikke genererer den samme fordeling som Morningstar. Specielt omkring de 3-stjernede foreninger
er Sharpe Ratioen og Morningstar kun enige om 14 foreninger, mens de resterende 21, som er
3-stjernet ifølge Morningstar, er spredt rundt på de andre kategorier af Sharpe Ratioen. Der ser
overordnet ikke ud til at være en fremherskende afhængighed mellem de to ratingsystemer, hvilket
også kommer til udtryk i de to insignifikante p-værdier. Ud fra det observerede ser det ikke ud til,
at man ikke kan skabe en ratingfordeling tilsvarende Morningstars ved at anvende Sharpe Ratio.
Når der kigges på CAPM og 4-faktor ratings er resultatet anderledes. Disse tilgange ratingsystemer viser et større sammenfald med Morningstar. Det kan eksempelvis ses, at over halvdelen
af foreningerne i Morningstars 3- og 4-stjernede gruppe tilsvarende falder i både CAPM og 4faktor systemets 3- og 4-stjernede grupper. De overordnede sammenfald resulterer i afvisninger
af uafhængighed for begge ratingsystemer. Med visse forbehold tyder det på, at man ved hjælp
39
af CAPM og 4-faktor regressioner kan rate investeringsforeninger med nogenlunde samme udfald
som Morningstar.
Tabel 5.6: Morningstar ratingtildeling vs. alternative ratingtildelinger
MS-rating
Sharpe Ratio rating
1 2 3
4 5
1 0 0 0
1 0
2 0 0 4
3 0
3 1 4 14 14 2
4 0 2 13 30 9
5 0 1 4
6 1
Pearson 2 , p-værdi: 0, 66
Likelihood ratio, p-værdi: 0, 55
5.4
1
2
3
4
5
CAPM rating
1 2 3
4
0 0 0
1
0 1 4
2
1 5 19 9
0 1 10 34
0 0 2
8
p-værdi: 0, 009
p-værdi: 0, 004
5
0
0
1
9
2
1
2
3
4
5
4-faktor rating
1 2 3
4
0 0 0
1
1 1 4
1
0 6 19 9
0 0 12 34
0 0 0
9
5
0
0
1
8
3
p-værdi: 0, 000
p-værdi: 0, 000
Morningstar ratings’ forudsigelsesevne
Som beskrevet i afsnit 4.5 analyseres forudsigelsesevnen af Morningstar ratings gennem et periodeopdelt test, der er baseret på rullende vinduer af 3 år, og et med månedlige ratingporteføljer.
Den samlede databehandling for begge tests er vedlagt som elektronisk bilag.
5.4.1
5.4.1.1
Periodevis performance
Test for monotont forhold
Som beskrevet i afsnit 4.5.2.1 laves der evaluering efter tre forskellige performancemål (Sharpe
Ratio, CAPM og 4-faktor) for alle fem out-of-sample perioder, hvilket giver i alt 15 dummyvariable regressioner. Hver af disse 15 regressioner indeholder fire dummy-variabler, og dette giver
60 koeﬃcienter til at evaluere hver af de fire forskellige in-sample ratingsystemer (Morningstar,
Sharpe Ratio, CAPM og 4-faktor rating) på. Hertil skal der dog bemærkes, at der i sidste out-ofsample periode fra 2011 - 2014, ingen 1-stjernede foreninger er efter Morningstars system, hvorfor
de andre ratingsystemer heller ikke har en 1-stjernet gruppe. Dette fjerner 3 koeﬃcienter (én for
hver af de tre performancemål), således der totalt set bliver 57 koeﬃcienter at evaluere hvert
ratingssystem ud fra.
Tabel 5.7 viser en oversigt over resultaterne for dummy variable regressionerne med de 5-stjernede
foreninger som reference. Antallet af gange, hvor der er signifikant negativ forskel mellem referen-
40
cegruppen og en koeﬃcient, kan aflæses i den første kolonne16 . F.eks. kan det konkluderes, at 15
gange ud af de 57 mulige har Morningstars ratingsystem været i stand til at rangere en 5-stjernet
gruppe, som i den efterfølgende 3-årige out-of-sample periode har outperformet én af de andre
stjernegrupper (1-4 efter Morningstars eget system). Omvendt kan det også bemærkes, at i 10
af de 57 gange har Morningstar rangeret en 5-stjernet gruppe, som efterfølgende signifikant har
underperformet en anden gruppe, da koeﬃcienten for disse grupper har været signifikant positiv.
Der blev altså ikke påvist en signifikant performanceforskel i 32 ud af de 57 out-of-sample tilfælde.
Denne tendens med ikke konsekvent at kunne udvælge en 5-stjernet gruppe, som efterfølgende
outperformer de andre ratinggrupper, går igen for de alternative ratingssystemer. Sharpe Ratioens
5-stjernede grupper bliver outperformet flere gange, end de outperformer gruppe 4-1. CAPM
outperformer lige så mange gange, som den bliver outperformet. 4-faktor modellen klarer sig
bedre end de tre andre ratingsystemer, idet den outperformer de andre ratinggrupper 22 ud af
57 gange. Gældende for alle fire ratingsystemer er, at deres 5-stjernede gruppers outperformance
er ligelidt fordelt mellem ratinggruppe 4-2. Rating 1 outperformes sjældent, hvilket kan skyldes
det lave antal foreninger i gruppen. Det skal endvidere bemærkes, at der er store udsving i
regressionernes forklaringsgrader.
Tabel 5.7: Relativ performancemåling med 5-stjernede referencegrupper
Antal gange
ud af 57 hvor
0 >⇤ 4 1
Antal gange
ud af 57 hvor
0 <⇤ 4 1
Antal gange
ud af 15 hvor
0 >⇤ 4
Antal gange
ud af 15 hvor
0 >⇤ 3
Antal gange
ud af 15 hvor
0 >⇤ 2
Antal gange
ud af 12 hvor
0 >⇤ 1
Morningstar rating
15
10
5
4
4
2
Sharpe Ratio rating
12
16
3
4
4
1
CAPM rating
18
18
6
6
6
0
4-faktor rating
22
13
6
6
6
4
*Signifikansniveau: 5%
Forskel i performance mellem ratinggrupper kan ske ved samtlige tre out-of-sample performancemål. I bilag 7.2 ses en oversigt over, hvilke mål outperformance skete ved. Både CAPM og 4-faktor
ratings outperformance er ligeligt fordelt mellem de tre performancemål. For ratings ved Sharpe
Ratio skete outperformance i syv ud af 12 gange ved Sharpe Ratio, to gange ved 4-faktor og tre
gange ved CAPM risikojustering. Sharpe Ratioen er altså bedst til at forudsige outperformance
målt ved Sharpe Ratio.
En meget væsentlig observation, som kan ses i bilag 7.2, er, at relativ over- og underperformance
er spredt ud over tidsperioderne. Overperformance er koncentreret omkring periode 2 (fra 2008
- 2011), og det samme er gældende for underperformance i periode 1 (fra 2007 - 2010). I de
16
Optællinger er lavet på baggrund antallet af signifikante resultater. Et eksempel med en oversigt af regressioner
for Morningstar kan ses i bilag 7.2. Oversigter for de alternative ratingsystemer kan ses i de elektroniske bilag
41
resterende perioder kan der stort set ikke påvises forskelle i performance. Disse resultater antyder
en vis grad af tilfældighed.
Tabel 5.8 bygger på samme information som vist i første kolonne i tabel 5.7, men her sammenlignes
henholdsvis ratinggruppe 4 med gruppe 3-1; ratinggruppe 3 med gruppe 2-1; ratinggruppe 2
med gruppe 1. Antallene i tabellen viser de tilfælde, hvor referencegrupperne har outperformet
de øvrige. Tabellen viser, at Morningstar og CAPM ikke har været gode til at identificere et
monotont forhold for rating 4-1, idet referencegrupperne kun i få tilfælde har outperformet de
resterende. Med gruppe 4 som reference har Sharpe Ratio ratings været det bedste ratingsystem
med outperformance i 11 ud af 42 mulige tilfælde. For sammenligningerne af de lavere ratings
påvises der kun få forskelle. Tabel 5.8 viser endvidere, at Sharpe Ratio og 4-faktor ratings’ højere
ratede grupper bliver outperformet hyppigere end Morningstar og CAPM ratings. Ses der bort
fra de 5-stjernede foreninger som referencegruppe, gælder det for alle fire ratingsystemer, at de
højere ratings bliver outperformet omtrent lige så mange gange, som de outperformer de lavere
ratings.
Tabel 5.8: Relativ performancemåling med varierende referencegrupper
Antal gange ud af
42 hvor 0 >⇤ 3 1
med D4 som
referencegruppe
Antal gange ud af
27 hvor 0 >⇤ 2 1
med D3 som
referencegruppe
Antal gange ud af
12 hvor 0 >⇤ 1
med D2 som
referencegruppe
Antal gange ud af
42 hvor 0 <⇤ 3 1
med D4 som
referencegruppe
Antal gange ud af
27 hvor 0 <⇤ 2 1
med D3 som
referencegruppe
Antal gange ud af
12 hvor 0 <⇤ 1
med D2 som
referencegruppe
Morningstar
rating
0
4
1
4
1
1
Sharpe
rating
11
3
1
5
8
3
CAPM
rating
3
1
1
1
3
0
4-faktor
rating
8
3
1
3
5
1
Signifikansniveau: 5%
5.4.1.2
Niveautest på tværs af ratingsystemer
Opsummeringen i tabel 5.9 viser tvetydige resultater. Det ses, at Morningstars 5-stjernede gruppe
outperformer andre ratingmåls 5-stjernede grupper seks gange (13,3%), mens Morningstar selv
bliver outperformet otte gange (17.8%). Fra oktober 2007 til september 2010 slår de alternative
ratingmål Morningstar i syv ud af ni mulige tilfælde17 . Fra oktober 2010 til september 2013
outperformer Morningstar de andre ratingsystemer fem ud af ni mulige gange, og bliver ikke selv
outperformet en eneste gang.
Perioden hvor Morningstar klarer sig relativt godt, efterfølges af en periode uden forskel i performance. Dette er til trods for, at de 3-årige perioder har to års dataoverlap. Det samme er
gældende for de alternative ratingsystemers gode periode.
17
3 ratingsystemer og 3 performancemål = 9 mulige forskelle pr. periode
42
Tabel 5.9: 5-stjernet performance på tværs af ratingsystemer
’07 - ’10
’08 - ’11
’09 - ’12
’10 - ’13
’11 - ’14
Sum
%
# gange ud af
9 Morningstar
> Andre
0
0
1
5
0
6
(ud af 45)
13,3%
# gange ud af
9 Morningstar
< Andre
7
1
0
0
0
8
(ud af 45)
17,8%
# gange ud af
3 Morningstar
> Sharpe Ratio
0
0
0
1
0
1
(ud af 15)
6,7%
# gange ud af
3 Morningstar
> CAPM
0
0
1
2
0
3
(ud af 15)
20,0%
# gange ud af
3 Morningstar
> 4-faktor
0
0
0
2
0
2
(ud af 15)
13,3%
Signifikansniveau: 5%
5.4.2
Test af performance ved månedlig reparametrisering
I dette afsnit beskrives resultaterne for det månedlige reparametriserende test. Først gennemgås
testet for det monotone forhold inden for hvert ratingsystem og derefter for niveau på tværs af
de fire ratingsystemer.
5.4.2.1
Test for monotont forhold
Figur 5.1 er et grafisk eksempel på de beregnede stjerneporteføljer for hhv. CAPM og Morningstar
ratings.
Figur 5.1: CAPM vs. Morningstar
43
Målt ved CAPM-risikojustering ser det overordnet ud til, at CAPM ratings besidder et monotont
forhold fra rating 1 til 5. Den observerede alpha for rating 4 er dog lidt mindre end den for rating
3. For Morningstars vedkommende er den overordnede tendens fra rating 1 til 5 også stigende,
men mellem rating 2 og 3 er der et stort fald i det månedligt merafkast. Det bemærkes også, at
ændringen mellem rating 4 til 5 er relativt flad.
Det er de observerede alphaer fra risikojusteringerne, der, som beskrevet i metodeafsnittet, laves tidsvarierende ved at tillægge residualet fra hver periode, og herefter bootstrappes der på
forskellene mellem ratinggrupperne. Resultaterne fra CAPM og 4-faktor evalueringerne af hvert
ratingsystem er indsat i tabel 5.10.
Tabel 5.10: Test af monotont forhold: Risikojusteret vha. CAPM og 4-faktor
CAPM alpha (p-værdi)
4-faktor alpha (p-værdi)
Morningstar rating
24%
26%
Sharpe Ratio rating
0%*
0%*
CAPM rating
2,5%*
0,4%*
4-faktor rating
4,3%*
7,9%
*: Signifikansniveau på 5%
Førnævnte Morningstar og CAPM henholdsvis fastholder og afviser nulhypotesen om et fladt
forhold. Dette viser, at selvom den observerede alpha for rating 4 var lavere end rating 3 ved
CAPM ratings, afvises hypotesen om et fladt forhold stadig. Det samme er dog ikke tilfældet
for Morningstar, der har en p-værdi på hele 24%. Som det eneste af de fire ratingsystemer kan
nulhypotesen om et fladt forhold mellem ratinggrupperne ikke afvises for Morningstar. Sharpe
Ratio ratings afviser helt ned til et 1% signifikansniveau, og 4-faktor ratings besidder også et
signifikant monotont forhold.
Resultaterne fra risikojustering ved 4-faktor modellen er næsten identiske med CAPM-justeringen
bortset fra, at det monotone test ved 4-faktor ratings nu kun er signifikant ved et 10% niveau.
Sharpe Ratio ratings er også her signifikante ved 1%. Morningstar har igen en meget høj p-værdi,
og dermed kan der heller ikke påvises et monotont forhold ved en 4-faktor justering.
5.4.2.2
Niveautest på tværs af ratingsystemer
Vi er endnu en gang interesserede i den relative performance af Morningstars højest ratede foreninger. Derfor testes denne 5-stjernede gruppe mod alternative grupper, forfatterne har dannet
på lige vilkår, men ud fra de tre andre performancemål. Resultaterne fra denne undersøgelse er
indsat i tabel 5.11.
44
Tabel 5.11: Morningstars 5-stjernede gruppe vs. de tre alternative predictors’
Morningstar > De tre alternative
CAPM-justering
0 ud af 3 gange
4-faktor-justering
0 ud af 3 gange
Signifikansniveau: 5%
Morningstar < De tre alternative
0 ud af 3 gange
0 ud af 3 gange
Hverken målt ved CAPM eller 4-faktor justering er det muligt at påvise en signifikant forskel
mellem Morningstar og de tre alternative ratingsystemers 5-stjernede gruppe. Dette er til trods
for, at Morningstar som det eneste system ikke besidder et monotont forhold. Manglende power
i testet kan være en mulig forklaring til, at der ikke kan påvises signifikant forskel.
Ved 4-faktor justering påvises det dog, at den 5-stjernede gruppe dannet ved CAPM ratings
signifikant outperformer Morningstar ved et 10% signifikansniveau. Det er ikke muligt at påvise
andre forskelle. Dermed er der ved afhandlingens valgte signifikansniveau på 5% ikke påvist
forskelle mellem Morningstar og de alternative ratingsystemers 5-stjernede grupper.
5.4.3
Delkonklusion på analyse af forudsigelsesevne
Det første test for monotoni ved dummy variable regressionerne viste, at evnen til at forudsige
forskel i performance mellem ratinggrupperne er skiftende fra periode til periode. Hverken Morningstar eller de tre alternative ratingsystemer var konsekvent i stand til at udpege et monotont
forhold. Ved testet for et overordnet monotont forhold var Morningstar som det eneste af de fire
ratingsystemer ikke i stand til at identificere et stigende forhold i risikojusterede afkast fra lave
til høje ratinggrupper.
Sammenligningen af ratingsystemernes 5-stjernede grupper viste en stor grad af tilfældighed ved
anvendelse af dummy variable regressionerne. Morningstar var i kun én ud af fem perioder i
stand til at outperforme de alternative, mens den i en anden periode selv blev outperformet.
De tre resterende perioder gav ingen overbevisende tegn på forskel mellem Morningstars og de
alternative ratingsystemer. Resultatet er sammenfaldende med månedstestets konklusion. Af seks
mulige sammenligninger var Morningstars 5-stjernede gruppe ikke i stand til at outperforme de
alternative ratingsystemer en eneste gang. Ved et 10% niveau er der tegn på, at den 5-stjernede
gruppe fundet ved CAPM har leveret et højere risikojusteret afkast end Morningstars 5-stjernede
gruppe.
45
6
Konklusion
Analyserne er baseret på et 10-årigt datasæt bestående af de 187 danske aktieinvesteringsforeninger, der havde en Morningstar rating i oktober 2004. Afhandlingens fokus har været at undersøge
forholdet mellem danske investeringsforeningers performance og deres Morningstar rating i et forsøg på at vurdere brugbarheden og forudsigelsesevnen af disse ratings. Konklusionen er bygget op
omkring fem opstillede hypoteser og vil besvare hver af disse, før afhandlingens hovedspørgsmål
besvares. Hypotese 1 og 3 omhandler hhv. relevansen af undersøgelsen og forskelle i ratingtildelinger mellem Morningstar og alternative ratingsystemer. Hypotese 2, 4 og 5 vurderer den faktiske
performance og brugbarhed af Morningstar ratings.
H1 : Der er en positiv sammenhæng mellem investeringsforeningers kapital in-flow og
deres Morningstar rating
Analysen af forholdet mellem investeringforeningernes rating og deres estimerede net in-flow af
kapital tyder på, at der eksisterer en positiv sammenhæng. De 5-stjernede foreninger har i løbet
af perioden oplevet et gennemsnitligt positivt in-flow af kapital på 0,66% af deres formueværdi
på månedlig basis. Ratinggruppe 4 har ligeledes oplevet et positivt in-flow, mens de resterende
tre stjernegrupper har oplevet et out-flow af kapital.
H2 : Morningstar ratings er i sig selv persistente
Analyserne af persistens gav modstridende resultater. Resultaterne fra antalstabellerne indikerer,
at ratings er persistente. Modsat antalstabellerne tager overgangsmatricerne forbehold for, at
ratings kan variere mellem start- og sluttidspunktet. Med denne tilgang virker ratings langtfra
persistente, idet sandsynlighederne for at fastholde en 5- og 4-stjernet rating efter seks måneder
var ca. 50%. Samlet vurderes det overordnet, at foreningernes rating over kortere perioder var
forholdsvist faste, men de mange små skift til naboratings leder til en afvisning af persistens.
H3 : En rating-inddeling tilsvarende Morningstars opnås ikke af alternative ratingsystemer
Vi undersøgte placeringen for komplette, vægtede ratings beregnet på baggrund af det fulde
datasæt. Sammenligning af ratingplaceringerne for Morningstar med placeringerne for de tre
alternative predictors viser overordnet et betydeligt sammenfald. Det er særligt ratings tildelt
vha. CAPM og 4-faktor modellen, der næsten grupperer tilsvarende Morningstar. Ratings efter
Sharpe Ratio havde også sammenfald med Morningstar, men ikke i en lige så væsentlig grad.
46
H4 : Performance af Morningstars stjernegrupper udviser et monotont forhold
Morningstar var som det eneste af fire ratingsystemer ikke i stand til at udpege et monotont
forhold ved bootstrap-testet. Heller ikke da vi fulgte Morningstar ratings out-of-sample over 3
år, udviste de overbevisende evner til at identificere et monotont forhold sammenlignet med
alternative predictors. Den 5-stjernede gruppe identificeret vha. 4-faktor modellen var i 39% af
tilfældene i stand til at outperforme de andre grupper. For Morningstar var det tilsvarende tal
26%. Morningstar viste tegn på gode egenskaber i én periode ud af fem, men tilsvarende dårlige
egenskaber i en anden periode. Det virkede generelt tilfældigt, hvornår Morningstar performede
godt, hvorfor denne hypotese afvises.
H5 : Morningstars 5-stjernede gruppe performer bedre end alternative ratingsystemers
5-stjernede grupper
Sammenligningen af de risikojusterede afkast for de 5-stjernede grupper på tværs af ratingsystemerne viste ved bootstrap-test, at Morningstar ikke er i stand til at outperforme de alternative
systemer. CAPM ratings viste tegn på at være bedre end Morningstar, men ikke signifikant. Målt
på 3-årige perioder var Morningstars 5-stjernede foreninger i seks ud af 45 tilfælde bedre end
de tre alternative mål. I otte ud af 45 tilfælde var de alternative mål bedre end Morningstar.
Resultaterne er i høj grad præget af tilfældigheder. Én af fem perioder var god for Morningstar,
mens en anden var god for de alternative predictors. De bedste foreninger ifølge Morningstar er
ikke i stand til at outperforme de bedste foreninger fundet ved de tre alternative mål, hvilket
fører til en afvisning af hypotesen.
Der er tegn på, at højtratede foreninger modtager større kapital in-flow end lavtratede foreninger.
Dette øger relevansen af at undersøge Morningstar ratings som indikator for fremtidig performance. Undersøgelsen af persistensen i disse ratings viste, at selvom investeringsforeninger overordnet
forbliver i samme ende af ratingskalaen over kortere tidshorisonter, udsættes de i gennemsnit for
skift næsten halvårligt. Således kan investorer ikke købe en 5-stjernet forening og forvente, at
denne rating fastholdes over flere år. Dette svækker den potentielle anvendelighed af Morningstar
ratings som investeringsredskab. Selv ved et performancetest med månedlig opdatering, hvorved
persistens i ratings reelt set bliver irrelevant, er Morningstar, modsat andre ratingsystemer, ikke
i stand til at identificere et monotont forhold. Heller ikke ved sammenligning af Morningstar med
alternative ratingmål er performance overlegen. De enkelte perioder med god performance virker
tilfældige, og dermed har Morningstar ratings ikke udvist forudsigelsesevner.
47
7
7.1
Diskussion og perspektivering
Diskussion af resultater
Flere faktorer kan have påvirket afhandlingens konklusioner i en væsentlig grad. I alt har mellem
170 og 109 foreninger (observationer) indgået i performanceanalyserne og med opdeling i fem
grupper, giver dette et svagt datagrundlag. Det lave antal observationer har i høj grad påvirket
antalstabellerne, da forudsætningerne for udførelse ikke var opfyldt, hvorfor vi valgte at fortolke
placeringer og sammenfald af ratings. Særligt har et konsekvent lavt antal 1-stjernede foreninger
betydet, at det kun i få tilfælde har været muligt at påvise performanceforskelle i mellem denne
gruppe og de øvrige.
Dernæst er analyserne endvidere afgrænsede fra at behandle loads. En medtagning af disse vil
sænke foreningernes afkast og potentielt ændre konklusionerne. Den sande ændring afhænger bl.a.
af de enkelte foreningers front- og back-end loads samt en fastlæggelse af investeringshorisonten.
Morningstar tager forbehold for loads i deres ratingtildeling, og alt andet lige vil foreninger med
relativt lavere omkostninger have lettere ved at opnå højere ratings og vice versa. Det kan derfor
ikke afvises, at Morningstar ratings vil udvise bedre relativ performance i en analyse, hvor der
tages forbehold for loads.
Ydermere er den undersøgte sample på 10 år hverken stor sammenlignet med, hvor længe Morningstar har tildelt ratings, eller hvor længe der har eksisteret investeringsforeninger i Danmark.
Konsekvensen af at undersøge en kort tidsperiode blev muligvis demonstreret af Morey & Gottesmann (Morey and Gottesman, 2006), der varsomt konkluderede, at Morningstar var en god
pegepind for fremtidig performance. Deres undersøgelse bestod kun af tre års out-of-sample, og
de gav flere mulige forklaringer på resultaterne herunder en diskussion af hot-hands fænomenet. I
denne afhandling udviste Morningstar også overlegen forudsigelsesevne i én ud af de fem 3-årige
perioder, og det kan blot være sådan en periode, Morey & Gottesmann har undersøgt.
Morningstars ratingmetodologi er kompleks sammenlignet med CAPM og 4-faktormodellen, da
den bl.a. involverer nytteteori og mål for investorers risikoaversion. Det er interessant at undersøge, hvorvidt de observerede ratingsammenfald mellem Morningstar og de to alphabaserede
ratingsystemer forbliver signifikante, når et større antal observationer indgår. Hvis dette er tilfældet, betvivler det hele eksistensgrundlaget for Morningstar ratings.
En væsentlig forskel mellem Morningstars stjernetildeling, og den vi foretager ud fra de tre alternative predictors, er, at Morningstar ratings indeholder 3-10 års historiske oplysninger, og de
alternative blot 3 års justeret afkast. Der er altså lagt mere vægt på den seneste information hos
de alternative mål, da foreningernes Morningstar rating også kan indeholde 5 og 10 års data.
Dette får forfatterne til at undre sig over, hvorvidt det observerede sammenfald i ratingtildelingerne (hypotese 3), når det fulde datasæt bruges i alle ratingsystemer, betyder, at det afgørende
48
for forudsigelse af relativ performance snarere er hukommelseslængden i et ratingsystem frem
for den metodologiske risikojustering. Et forslag til videre arbejde kan derfor være at variere de
alternative måls in-sample periodelængder.
7.2
Perspektivering
Empirisk er det velkendt, at historisk performance ikke er en garanti for fremtidig. Hverken
Morningstar eller de tre alternative predictors foretager forecasts, men i stedet er deres rangeringer
alene vurderet på historiske oplysninger. Af bl.a. denne årsag udførte vi et ikke-parametrisk
bootstrap-test på månedlig data og tillod derved inkludering af al senest tilgængelig information
i hvert ratingsystem. På trods af dette var Morningstar, modsat de tre alternative mål, ikke i
stand til at udpege et overordnet monotont forhold.
Afhandlingens analyser har udelukkende taget udgangspunkt i at evaluere relativ performance
investeringsforeningerne imellem. Herved er der ikke taget stilling til den absolutte performance af
foreningerne, hvilket er et meget omdiskuteret emne. Nærværende afhandling berører dermed ikke,
hvorvidt det har leveret et over- eller undernormalt risikojusteret afkast at investere de enkelte
stjernegrupper, men derimod om man har opnået det relativt bedste afkast ved at vælge de højest
ratede foreninger. Hvis ingen investeringsforeninger er i stand til at levere et overnormalt afkast,
betvivler det deres og Morningstar ratings’ eksistensgrundlag samt denne afhandlings relevans.
Hvis nogle investeringsforeninger derimod er i stand til at levere et overnormalt afkast, øger
det relevansen af afhandlingens konklusion. De populære Morningstar ratings har netop ikke
konsekvent været i stand til at udpege de relativt bedste investeringsforeninger. Trods tegn på
bedre egenskaber end Morningstar har alternative mål heller ikke været i stand til dette.
49
References
Antypas, A., G. M. Caporale, N. Kourogenis, and N. Pittis (2009): “Selectivity, Market
Timing and the Morningstar Star-Rating System,” CESifo Working Paper No. 2580.
Asness, C. S. (1994): “Variables That Explain Stock Returns: Simulated and Empirical Evidence,” PhD thesis.
Banz, R. W. (1981): “The Relationship Between Return and Market Value of Common Stocks,”
Journal of Financial Economics, 9(1), 3–18.
Black, F., M. C. Jensen, and M. Scholes (1972): The Capital Asset Pricing Model: Some
Empirical Tests, vol. 81.
Blake, C. R., and M. R. Morey (2000): “Morningstar Ratings and Mutual Fund Performance,” Journal of Financial and Quantitative Analysis, 35(3), 451–483.
Blume, M. E. (1998): “An Anatomy of Morningstar Ratings,” Financial Analysts Journal,
54(2), 19–27.
Boudoukh, J., M. Richardson, and R. F. Whitelaw (1994): “Industry Returns and the
Fisher Eﬀect,” Journal of Finance, 49(5), 1595–1615.
Carhart, M. M. (1997): “On Persistence in Mutual Fund Performance,” Journal of Finance,
52(1), 57–82.
Damato, K. (1996): “Morningstar Edges Toward One-Year Ratings,” The Wall Street Journal,
p. C1.
Duret, A.-S., P. Hereil, P. Mitaine, N. Moussavi, and T. Roncalli (2008): “Fund
Rating Systems and Performance Predictability,” Working Paper, Universite d Evry, pp. 1–17.
Fama, E. F. (1970): “Eﬃcient Capital Markets: A Review of Theory and Empirical Work,”
Journal of Finance, 25(2), 383–417.
Fama, E. F., and K. R. French (1992): “The Cross-Section of Expected Stock Returns,”
Journal of Finance, 47(2), 427–465.
Fama, E. F., and K. R. French (1996): “Multifactor Explanations of Asset Pricing Anomalies,”
Journal of Finance, 51(1), 55–84.
Fama, E. F., and K. R. French (1993): “Common Risk Factors in the Returns On Stocks
And Bonds,” Journal of Financial Economics, 33(1), 3–56.
Frazzini, A., and L. H. Pedersen (2014): “Betting Against Beta,” Journal of Financial
Economics, 111(1), 1–25.
50
French,
K. (2015):
“Fama/French Research Factors,”
sidst tilgået den 3. maj, p.
<http://mba.tuck.dartmouth.edu/pages/faculty/ken.f.
Garnier, O., and T. Pujol (2007): “Can Today’s Stars Be Used To Read the Stars of the
Future?,” Les Cahiers Scientifiques de l AMF, 3(March), 1–39.
Gerrans, P. (2006): “Morningstar Ratings and Future Performance,” Accounting and Finance,
46(4), 605–628.
Goetsmann, W. N., and N. Peles (1997): “Cognitive Dissonance and Mutual Fund Investors,”
Journal of Financial Research, 20(2), 145–158.
Grinblatt, M., and T. J. Moskowitz (2004): “Predicting Stock Price Movements From Past
Returns: The Role of Consistency And Tax-Loss Selling,” Journal of Financial Economics,
71(3), 541–579.
Gruber, M. J. (1996): “Another Puzzle: The Growth in Actively Managed Mutual Funds,”
Journal of Finance, 51(3), 783–810.
Guercio, D. D., and P. A. Tkac (2002): “The Determinants of The Flow of Funds of Managed
Portfolios: Mutual Funds vs. Pension Funds,” Journal of Financial and Quantitative Analysis,
37(November), 523–557.
Guercio, D. D., and P. A. Tkac (2003): “The Eﬀect of Morningstar Ratings on Mutual Fund
Flows,” Working Paper, University of Oregon Department of Finance.
Hammer, D. A. (1991): “Dynamic Asset Allocation: Strategies for the Stock, Bond and Money
Markets,” John Wiley and Sons, New York.
Hereil, P., N. Moussavi, and P. Mitaine (2010): “Mutual Fund Ratings and Performance
Persistence,” White Paper, Quant Research by Lyxor.
IFB
(2015):
“Statistikker
i
excel,”
sidst
tilgået
den
3.
maj,
pp.
<http://www.investering.dk/statistikker–i–excel1>.
Jaffe, C. (1995): “Rating The Raters: Flaws Found in Each Service,” Boston Globe, p. 78.
Jegadeesh, N. (1990): “Evidence of Predictable Behavior of Security Returns,” Journal of
Finance, 45(3), 881–898.
Jegadeesh, N., and S. Titman (1993): “Returns to Buying Winners and Selling Losers: Implications for Stock Market Eﬃciency,” Journal of Finance, 48(1), 65.
Jensen, M. C. (1968): “The Performance of Mutual Funds in the Period 1945-1964,” Journal
of Finance, 23(2), 389–416.
51
Khorana, A., and E. Nelling (1998): “The Determinants and Predictive Ability of Mutual
Fund Ratings,” Journal of Investing, 7(3), 61–66.
Lintner, J. (1965): “The Valuation of Risk Assets and The Selection of Risky Investments in
Stock Portfolios and Capital Budgets,” Review of Economics and Statistics, 47(1), 13–37.
Lo, A. W., and C. A. MacKinlay (1990): “When Are Contrarian Profits Due to Stock Market
Overreaction?,” Review of Financial Studies, 3, 175–205.
Malkiel, B. G. (1995): “Returns from Investing in Equity Mutual Funds 1971 to 1991,” The
Journal of Finance, 50(2), 549–572.
Markowitz, H. (1952): “Portfolio Selection,” Journal of Finance, 7(1), 77–91.
Mikkelsen, N. H. (2014): “Danske og Nordiske Fonde i Europæisk Perspektiv,” Morningstar.
Morey, M. R. (2005): “The Kiss of Death: A 5-Star Morningstar Mutual Fund Rating,” Journal
of Investment Management, 3(2), 41–52.
Morey, M. R., and A. A. Gottesman (2006): “Morningstar Mutual Fund Ratings Redux,”
Journal of Investment Consulting, 8(1), 25–37.
Morningstar (2009): “Morningstar Fund Rating Methodology,” .
Patton, A. (2015): “Code for the monotonic relationship (MR) tests in Patton and Timmermann
(2010),” sidst tilgået den 3. maj, p. <http://public.econ.duke.edu/˜ap172/>.
Patton, A. J., and A. Timmermann (2010): “Monotonicity in Asset Returns: New Tests with
Applications to The Term Structure, The CAPM, And Portfolio Sorts,” Journal of Financial
Economics, 98(3), 605–625.
Roll, R. (1977): “A Critique of The Asset Pricing Theory’s Tests Part I: On Past And Potential
Testability of The Theory,” Journal of Financial Economics, 4(2), 129–176.
Rosenberg, B., K. Reid, and R. Lanstein (1985): “Persuasive Evidence of Market Ineﬃciency,” Journal of Portfolio Management, 11, 9–17.
Schuermann, T., and Y. Jafry (2003): “Measurement and Estimation of Credit Migration
Matrices,” Financial Institutions Center, The Wharton School of the University of Pennsylvania, pp. 1–44.
Sharpe, W. F. (1964): “Capital Asset Prices: A Theroy of Market Equilibrium Under Conditions of Risk,” Journal of Finance, 19(3), 425–442.
Sharpe, W. F. (1966): “Mutual Fund Performance,” The Journal of Business, 39(January),
119–138.
52
Sharpe, W. F. (1998): “Morningstar’s Risk-Adjusted Ratings,” Financial Analysts Journal,
54(4), 21–33.
Sirri, E. R., and P. Tufano (1998): “Costly Search and Mutual Fund Flows,” The Journal of
Finance, 53(5), 1589–1622.
Stattman, D. (1980): “Book Values and Stock Returns,” The Chicago MBA: A Journal of
Selected Papers, 4, 25–45.
Verbeek, M. (2012): A Guide to Modern Econometrics. John Wiley & Sons, Ltd, 4th edn.
Wooldridge, J. (2009): Introductory Econometrics - A Modern Approach. South-Western
CENGAGE Learning, 4th edn.
53
Bilag
Bilag A - Geografisk inddeling og benchmarkoversigt
Benchmarks
Danmark
Europa
Asien (ekskl. Japan)
Global
Japan
Nordamerika
Total
Antal
29
55
8
69
12
14
187
Indeks (kapitalvægtet, brutto)
OMX København Benchmark (OMXCB)
MSCI Europe
MSCI Asia ex Japan
MSCI World
MSCI Japan
MSCI North America
Bilag B - Overgangsmatrice
Pt =
1
2
3
4
5
0
1
2
3
pti,j
54
4
5
0
Bilag C - Faktorer for geografiske grupper
SMB
HML
WML
Danmark
-0,15%
-0,32%
0,54%
Europa
0,12%
0,09%
0,88%
Asien ekskl. Japan
-0,11%
0,39%
0,76%
Global
0,04%
0,17%
0,49%
Japan
0,10%
0,42%
0,20%
Nordamerika
0,11%
0,09%
0,20%
Bilag D - Fordeling af antal foreninger i hver ratinggruppe
Rating \ Periode
5-stjernet
4-stjernet
3-stjernet
2-stjernet
1-stjernet
Total
2004-’07-’10
22
47
57
23
5
154
2005-’08-’11
18
52
47
20
2
139
55
2006-’09-’12
14
37
44
19
1
115
2007-’10-’13
13
38
52
7
1
111
2008-’11-’14
14
36
51
9
0
110
Bilag E - Sammentælling af antalstabeller til persistensanalyse
Fra/Til
Okt ’04
Okt ’05
Okt ’06
Okt ’07
Okt ’08
Okt ’09
Okt ’10
Okt ’11
Okt ’12
Okt ’13
Okt ’05
0*
-
Okt ’06
0*
0*
-
Okt ’07
0*
0*
0*
-
Okt ’08
0*
0*
0*
0*
-
Okt ’09
0,001*
0,095
0*
0*
0*
-
Okt ’10
0,002*
0,363
0,006*
0,309
0*
0*
-
Okt ’11
0,005*
0,033*
0,001*
0,1
0*
0*
0*
-
Okt ’12
0,007*
0,109
0,017*
0,273
0*
0*
0*
0*
-
Okt ’13
0*
0,008*
0*
0,02*
0*
0*
0*
0*
0*
-
Sep ’14
0,028*
0,001*
0*
0,002*
0*
0,027*
0*
0*
0*
0*
Okt ’06
0*
0*
-
Okt ’07
0*
0*
0*
-
Okt ’08
0*
0*
0*
0*
-
Okt ’09
0*
0,087
0*
0*
0*
-
Okt ’10
0*
0,394
0,003*
0,124
0*
0*
-
Okt ’11
0,003*
0,004*
0*
0,033*
0*
0*
0*
-
Okt ’12
0,021*
0,128
0,005*
0,295
0*
0*
0*
0*
-
Okt ’13
0,003*
0,007*
0*
0,013*
0,008*
0*
0*
0*
0*
-
Sep ’14
0,302
0,034*
0,048*
0,343
0,004*
0,044*
0,001*
0*
0*
0*
Signifikansniveau: 5%
Fra/Til
Okt ’04
Okt ’05
Okt ’06
Okt ’07
Okt ’08
Okt ’09
Okt ’10
Okt ’11
Okt ’12
Okt ’13
Okt ’05
0*
-
Signifikansniveau: 5%
Bilag F - Samlet antal år brugt i hver rating
Tid \ Rating
Samlet antal år
1
46
56
2
228
3
573
4
475
5
182
Bilag G - Morningstars forudsigelsesevne, eksempel på 3-årig dummy variable
test
Justeret ved Sharpe Ratio
Periode
5
(konstant)
4
(4-stjernede)
3
(3-stjernede)
2
(2-stjernede)
1
(1-stjernede)
N
R2
2007 - 2010
-0,144*
0,067*
0,044
0,361
0,057
154
0,068
2008 - 2011
0,081*
-0,063*
-0,053*
-0,084*
-0,118*
139
0,111
2009 - 2012
0,244*
-0,070*
-0,278
-0,062*
0,067*
115
0,079
2010 - 2013
0,164*
-0,001
0,057
-0,046
0,012
111
0,064
2011 - 2014
0,349*
0,106
0,154*
0,155*
-
110
0,065
N
R2
Justeret ved CAPM
Periode
5
(konstant)
4
(4-stjernede)
3
(3-stjernede)
2
(2-stjernede)
1
(1-stjernede)
2007 - 2010
-0,308*
0,524*
0,390*
0,335*
0,514*
154
0,092
2008 - 2011
0,369*
-0,405*
-0,288*
-0,475*
-0,560*
139
0,127
2009 - 2012
0,211*
-0,241*
-0,207*
-0,107
-0,133
115
0,077
2010 - 2013
-0,166
-0,087
0,065
0,126
0,041
111
0,034
2011 - 2014
-0,408*
0,164
0,279
0,352
-
110
0,029
N
R2
Justeret ved 4-faktor model
Periode
5
(konstant)
4
(4-stjernede)
3
(3-stjernede)
2
(2-stjernede)
1
(1-stjernede)
2007 - 2010
-0,265*
0,491*
0,344*
0,293
0,495
154
0,092
2008 - 2011
0,218*
-0,354*
-0,237*
-0,442*
-0,469
139
0,139
2009 - 2012
0,062
-0,173
-0,117
-0,096
-0,010
115
0,042
2010 - 2013
-0,071
-0,126
-0,001
-0,029
-0,176
111
0,032
2011 - 2014
-0,313*
0,181
0,205
0,232
-
110
0,018
* Signifikansniveau: 5%
57
Bilag H - Oversigt over 5-stjernet outperformance
Antal gange ud af 19 hvor
0 >⇤ 4 1 målt ved Sharpe
Ratio
Antal gange ud af 19 hvor
0 >⇤ 4 1 målt ved CAPM
Antal gange ud af 19 hvor
0 >⇤ 4 1 målt ved
4-faktor
Total
Morningstar rating
6
6
3
15
Sharpe Ratio rating
7
3
2
12
CAPM rating
6
6
6
18
4-faktor rating
8
7
7
22
Signifikansniveau: 5%
58