KRONIKK AV ROAR ULVESTAD Forskere etterlyser nøktern bruk av PISA Resultater fra PISA blir brukt som styringsverktøy for skoleutvikling, uten at testingen helt er forstått. Forskere ved Universitetet i Oslo har påvist åpenbare mangler i offentlighetens kunnskapsgrunnlag. PISA-testing er OECD sitt store verktøy for å kunne gi enkeltland tilbakemeldinger om hvordan skolesystemet ligger an i forhold til andre land, og spiller dermed en stor rolle i de fleste deltakerlandenes skolepolitikk. OECD sine motiver for PISA-testing av elever er knyttet til kjerneverdier som videre utvikling av velstand og økonomi. En har ønsket å finne indikatorer som skal måle kunnskaper og kompetanser i de ulike landenes elevmasse. Får en slik et pålitelig uttrykk for et lands kollektive humankapital, går OECD ut fra at denne kan brukes til å predikere et lands muligheter til å lykkes. Viser testene en lav skår, er det en indikasjon på at det er på tide å stramme opp utdanningssystemet, gjerne etter modell av dem som skårer høyt på listen. Dette til tross for at forskningsrapporter viser at det ikke er en sammenheng mellom skår på PISA og en rekke indikatorer for landets økonomi og konkurranseevne. Kanskje PISA ikke måler det OECD hevder at det skal måle? Mulige fallgruver Statistikere og skoleforskere som er vant til å bearbeide store data, har siden PISA ble etablert advart mot å bruke PISA sitt tallmateriale og konklusjoner på en måte som det ikke finnes vitenskapelig statistisk dekning 92 for. Skal man bruke milliarder av skattepengene for å «stramme opp» skolesystemet, bør man ha forskningen i ryggen; en forskning som er metodisk pålitelig oppbygd og som ikke gir rom for tvil om overføringsverdien til det virkelige liv. Forskerne Leslie og David Rutkowski ved CEMO har arbeidet seg gjennom PISA-materialet og det metodologiske fundamentet, og påpeker i en popularisert artikkel noen åpenbare fallgruver som alle som refererer til PISA bør kjenne til. De skisserer tre like sider ved denne testingen som man bør være oppmerksom på: utvalg av deltagere, pålitelig vurdering av prestasjonene og utfordringene med å måle noe over tid. Utvalget av deltakere Utvalget av deltagere i PISA er i utgangspunktet tilfeldig og et vitenskapelig gyldig utvalg av elever på en viss alder. En viss andel av elevene ekskluderes grunnet funksjonshemninger eller spesielle forhold, sammen med elever med dårlig språknivå. Mange land går ut over en avtalt øvre eksklusjonsgrense på 5 prosent, og i sluttrapportene er det vanskelig å identifisere disse landene. Land kan da ha en ekskluderingsprosent som gir dem en ufortjent høy rangering på PISA-testene. I seksten av de 65 medlemslandene er mindre enn 80% av 15-åringene fanget opp av PISAtesten, blant dem også Shanghai som skårer helt i toppen. De med minst deltagelse er Costa Rica med bare 50% deltagelse, Albania med 55% og Vietnam med 56. Jo lavere deltagerprosent, desto mindre pålitelig er testskåren som indikasjon på den samlede humankapital. Med så svak dekning er PISA ikke det som OECD ønsker, nemlig en pålitelig indikator på humankapital, som i neste omgang hevdes å ha «an impact on the prosperity and well-being of society as a whole» (Rutkowski og Rutkowski 2016: s. 253). Vurdering av prestasjoner Når det gjelder å vurdere prestasjoner, er det en nesten umenneskelig ambisjon å ville finne pålitelige parametere for å måle kompetanse på tvers av kulturelle skillelinjer. Hva kan det være rimelig at 15-åringer fra USA, Kasakhstan og Shanghai har til felles? PISA-testing forutsetter at man har funnet testområder og testspørsmål som er pålitelige på tvers av over 60 deltakerland fra hele kloden. Bare oversetting er en utfordring, og det er åpenbart at testene har en europeisk hverdag som normativt referansepunkt. Rutkowski og Rutkowski konkluderer med at det er en rekke logiske brister og feilkilder både i oppbygging og gjennomføring, og at disse får ulike konsekvenser for tolkningen. Mye kan tyde på at grunnintensjonen Bedre Skole nr. 3 ■ 2016 om universalitet er i overkant ambisiøs. En følge av vansken med å finne felles grunn å vurdere ut fra, er at statistisk påvisbare forskjeller mellom land i virkeligheten kan dreie seg om ganske likeverdige kunnskapsnivå. Motsatt kan statistisk påvisbare likheter mellom land skjule store ulikheter i allment kunnskapsnivå. Kulturelle og språklige barrierer sørger for at idealet om universalitet ikke innfris på en vitenskapelig måte, men forblir på ønskelisten. I tillegg kan ulike land ha kulturelle overordnede trekk som påvirker eleven i testsituasjonen, uten at disse har med selve kunnskapsnivået å gjøre. Lydighetskultur er for eksempel et trekk som er ulikt fra land til land. Et annet moment som Rutkowski og Rutkowski påpeker, er at elever i fattige land ofte underkommuniserer sin sosioøkonomiske bakgrunn. Det gjør at de ikke havner i riktig informantkategori (side 254). Til sist lider PISAmaterialet under manglende innrapportering av data. Når opp til 10–15 prosent av elevene ikke har besvart et spørsmål, svekker det det vitenskapelige grunnlaget for å generalisere. Måling over tid Det siste hovedområdet er forbundet med det å måle en kompetanse over tid. Gjennom hele PISA-perioden har testmatrisene utviklet seg, og det tematiske innholdet har blitt helt forandret mange plasser. Dette er vist med eksempler fra matematikk, der den tematiske undergruppen «rom og form» er byttet ut med «endring Bedre Skole nr. 3 ■ 2016 og relasjoner». Når innholdet i en test underkastes en såpass stor endring, er det også innlysende at det samme ikke blir målt. Temaene er ikke generelt kompatible, og endringer i skår, om det er til det bedre eller verre, er dermed ikke pålitelige. All videreutvikling av PISA-testing bør ta dette opp i seg. Jo større endringer i testmatrisene, jo mindre pålitelig er resultatene til å måle reell endring. Maner til forsiktighet Forskerne avslutter artikkelen med å mane til forsiktighet i bruk av PISAmaterialet. De ønsker i denne sammenheng at OECD supplerer hver PISA-rapport med et eget kapittel der de metodiske avgrensningene og begrensningene blir klargjort. Dette kan bidra til at en har en mer nøktern og korrekt oppfatning av testingens overføringsverdi. PISA kan gi forholdsvis pålitelig informasjon om hva et representativt utvalg av 15-åringer som går på skole på en spesiell dag kan om et utvalg av emner som på forhånd er avgrenset av PISA-konsortiet. Det eneste man med sikkerhet kan bruke dette til, er altså å si noe om et smalt utdrag av befolkningen med hensyn til hva de kan om et smalt utvalg av emner. PISA er ikke basert på hypoteser om kausale sammenhenger, og land kan ha like skårer, men av ulike grunner. Hvor mye verd er en bedre skår? De refleksjonene som Rutkowski og Rutkowski har vitenskapelig belegg for, stiller store spørsmål ved bruken av PISA. Om jeg avrunder med noen refleksjoner for egen regning, kan jeg starte med å minne om at PISA blir raskt brukt til å krisemaksimere og forsvare bruk og flytting av milliarder av kroner på skolebudsjettene. I Norge har det blitt gjentatt mange ganger at vi bruker mest i verden på skole, og at det derfor er for dårlig å havne bare midt på treet i PISA-rangeringen. I nesten hver eneste artikkel, kronikk eller kommentar om skolepolitikk, åpnes det med å henvise til «PISAsjokket». Om vi vil sammenligne skolesystemer på tvers av landegrenser og knytte det kausalt til utvikling og velstand, må vi nok grave dypere i den metodiske verktøykassen enn det PISA legger opp til. Det er blitt lagt et litt for stort ansvar på 15-åringene våre her. Vi bør nok i menneskelighetens navn ikke utsette dem for et skolesystem som for eksempel det i Shanghai, bare for den noe hule tilfredsstillelsen det gir å krype opp noen hakk på PISA. litteratur Rutkowski, L. & Rutkowski, D. (2015). A Call for a More Measured Approach to Reporting and Interpreting PISA Results Educational Researcher, Vol. 45 No. 4, pp. 252–257. 93
© Copyright 2024