Download Report

KRONIKK AV ROAR ULVESTAD
Forskere etterlyser nøktern bruk av PISA
Resultater fra PISA blir brukt som styringsverktøy for
skoleutvikling, uten at testingen helt er forstått. Forskere
ved Universitetet i Oslo har påvist åpenbare mangler i
offentlighetens kunnskapsgrunnlag.
PISA-testing er OECD sitt store verktøy for å kunne gi enkeltland tilbakemeldinger om hvordan skolesystemet
ligger an i forhold til andre land, og
spiller dermed en stor rolle i de
fleste deltakerlandenes skolepolitikk.
OECD sine motiver for PISA-testing
av elever er knyttet til kjerneverdier
som videre utvikling av velstand og
økonomi. En har ønsket å finne indikatorer som skal måle kunnskaper og
kompetanser i de ulike landenes elevmasse. Får en slik et pålitelig uttrykk
for et lands kollektive humankapital,
går OECD ut fra at denne kan brukes
til å predikere et lands muligheter til
å lykkes. Viser testene en lav skår, er
det en indikasjon på at det er på tide
å stramme opp utdanningssystemet,
gjerne etter modell av dem som skårer høyt på listen. Dette til tross for at
forskningsrapporter viser at det ikke
er en sammenheng mellom skår på
PISA og en rekke indikatorer for landets økonomi og konkurranseevne.
Kanskje PISA ikke måler det OECD
hevder at det skal måle?
Mulige fallgruver
Statistikere og skoleforskere som er
vant til å bearbeide store data, har
siden PISA ble etablert advart mot å
bruke PISA sitt tallmateriale og konklusjoner på en måte som det ikke
finnes vitenskapelig statistisk dekning
92
for. Skal man bruke milliarder av skattepengene for å «stramme opp» skolesystemet, bør man ha forskningen i
ryggen; en forskning som er metodisk
pålitelig oppbygd og som ikke gir rom
for tvil om overføringsverdien til det
virkelige liv.
Forskerne Leslie og David Rutkowski ved CEMO har arbeidet seg
gjennom PISA-materialet og det metodologiske fundamentet, og påpeker
i en popularisert artikkel noen åpenbare fallgruver som alle som refererer
til PISA bør kjenne til. De skisserer
tre like sider ved denne testingen som
man bør være oppmerksom på: utvalg
av deltagere, pålitelig vurdering av
prestasjonene og utfordringene med
å måle noe over tid.
Utvalget av deltakere
Utvalget av deltagere i PISA er i
utgangspunktet tilfeldig og et vitenskapelig gyldig utvalg av elever på en
viss alder. En viss andel av elevene
ekskluderes grunnet funksjonshemninger eller spesielle forhold, sammen
med elever med dårlig språknivå.
Mange land går ut over en avtalt øvre
eksklusjonsgrense på 5 prosent, og
i sluttrapportene er det vanskelig å
identifisere disse landene. Land kan
da ha en ekskluderingsprosent som
gir dem en ufortjent høy rangering
på PISA-testene. I seksten av de 65
medlemslandene er mindre enn 80%
av 15-åringene fanget opp av PISAtesten, blant dem også Shanghai som
skårer helt i toppen. De med minst
deltagelse er Costa Rica med bare
50% deltagelse, Albania med 55% og
Vietnam med 56.
Jo lavere deltagerprosent, desto
mindre pålitelig er testskåren som
indikasjon på den samlede humankapital. Med så svak dekning er PISA
ikke det som OECD ønsker, nemlig
en pålitelig indikator på humankapital, som i neste omgang hevdes å
ha «an impact on the prosperity and
well-being of society as a whole»
(Rutkowski og Rutkowski 2016:
s. 253).
Vurdering av prestasjoner
Når det gjelder å vurdere prestasjoner, er det en nesten umenneskelig
ambisjon å ville finne pålitelige parametere for å måle kompetanse på
tvers av kulturelle skillelinjer. Hva
kan det være rimelig at 15-åringer fra
USA, Kasakhstan og Shanghai har
til felles? PISA-testing forutsetter at
man har funnet testområder og testspørsmål som er pålitelige på tvers av
over 60 deltakerland fra hele kloden.
Bare oversetting er en utfordring,
og det er åpenbart at testene har en
europeisk hverdag som normativt
referansepunkt.
Rutkowski og Rutkowski konkluderer med at det er en rekke logiske
brister og feilkilder både i oppbygging
og gjennomføring, og at disse får
ulike konsekvenser for tolkningen.
Mye kan tyde på at grunnintensjonen
Bedre Skole nr. 3
■
2016
om universalitet er i overkant ambisiøs. En følge av vansken med å finne
felles grunn å vurdere ut fra, er at
statistisk påvisbare forskjeller mellom land i virkeligheten kan dreie seg
om ganske likeverdige kunnskapsnivå.
Motsatt kan statistisk påvisbare likheter mellom land skjule store ulikheter
i allment kunnskapsnivå. Kulturelle
og språklige barrierer sørger for at
idealet om universalitet ikke innfris
på en vitenskapelig måte, men forblir
på ønskelisten.
I tillegg kan ulike land ha kulturelle overordnede trekk som påvirker
eleven i testsituasjonen, uten at disse
har med selve kunnskapsnivået å
gjøre. Lydighetskultur er for eksempel
et trekk som er ulikt fra land til land.
Et annet moment som Rutkowski og
Rutkowski påpeker, er at elever i fattige land ofte underkommuniserer sin
sosioøkonomiske bakgrunn. Det gjør
at de ikke havner i riktig informantkategori (side 254). Til sist lider PISAmaterialet under manglende innrapportering av data. Når opp til 10–15
prosent av elevene ikke har besvart et
spørsmål, svekker det det vitenskapelige grunnlaget for å generalisere.
Måling over tid
Det siste hovedområdet er forbundet
med det å måle en kompetanse over
tid. Gjennom hele PISA-perioden
har testmatrisene utviklet seg, og
det tematiske innholdet har blitt helt
forandret mange plasser. Dette er vist
med eksempler fra matematikk, der
den tematiske undergruppen «rom
og form» er byttet ut med «endring
Bedre Skole nr. 3
■
2016
og relasjoner». Når innholdet i en
test underkastes en såpass stor endring, er det også innlysende at det
samme ikke blir målt. Temaene er
ikke generelt kompatible, og endringer i skår, om det er til det bedre eller
verre, er dermed ikke pålitelige. All
videreutvikling av PISA-testing bør
ta dette opp i seg. Jo større endringer
i testmatrisene, jo mindre pålitelig er
resultatene til å måle reell endring.
Maner til forsiktighet
Forskerne avslutter artikkelen med å
mane til forsiktighet i bruk av PISAmaterialet. De ønsker i denne sammenheng at OECD supplerer hver
PISA-rapport med et eget kapittel
der de metodiske avgrensningene og
begrensningene blir klargjort. Dette
kan bidra til at en har en mer nøktern
og korrekt oppfatning av testingens
overføringsverdi.
PISA kan gi forholdsvis pålitelig
informasjon om hva et representativt
utvalg av 15-åringer som går på skole
på en spesiell dag kan om et utvalg av
emner som på forhånd er avgrenset
av PISA-konsortiet. Det eneste man
med sikkerhet kan bruke dette til,
er altså å si noe om et smalt utdrag
av befolkningen med hensyn til hva
de kan om et smalt utvalg av emner.
PISA er ikke basert på hypoteser om
kausale sammenhenger, og land kan
ha like skårer, men av ulike grunner.
Hvor mye verd er en bedre skår?
De refleksjonene som Rutkowski og
Rutkowski har vitenskapelig belegg
for, stiller store spørsmål ved bruken
av PISA. Om jeg avrunder med noen
refleksjoner for egen regning, kan jeg
starte med å minne om at PISA blir
raskt brukt til å krisemaksimere og
forsvare bruk og flytting av milliarder
av kroner på skolebudsjettene. I Norge
har det blitt gjentatt mange ganger at
vi bruker mest i verden på skole, og
at det derfor er for dårlig å havne bare
midt på treet i PISA-rangeringen. I
nesten hver eneste artikkel, kronikk
eller kommentar om skolepolitikk,
åpnes det med å henvise til «PISAsjokket».
Om vi vil sammenligne skolesystemer på tvers av landegrenser og knytte
det kausalt til utvikling og velstand,
må vi nok grave dypere i den metodiske verktøykassen enn det PISA
legger opp til.
Det er blitt lagt et litt for stort ansvar på 15-åringene våre her. Vi bør
nok i menneskelighetens navn ikke
utsette dem for et skolesystem som
for eksempel det i Shanghai, bare for
den noe hule tilfredsstillelsen det gir å
krype opp noen hakk på PISA.
litteratur
Rutkowski, L. & Rutkowski, D.
(2015). A Call for a More Measured
Approach to Reporting and Interpreting
PISA Results Educational Researcher,
Vol. 45 No. 4, pp. 252–257.
93