Clear Sky Science · nl

Geldigheid en billijkheid van de PISA 2018 Global Competence-beoordeling: een argumentatieve evaluatie via verklarende item-responsmodellen

· Terug naar het overzicht

Waarom dit onderzoek van belang is voor het dagelijks leven

Tieners van nu groeien op in een wereld waar nieuws, vrienden en toekomstige banen landsgrenzen oversteken. Scholen proberen hen voor te bereiden op het omgaan met andere culturen, het beoordelen van online informatie en het samenwerken met mensen die anders zijn dan zijzelf. Het Programme for International Student Assessment (PISA) probeerde in 2018 deze “globale competentie” te meten. Deze studie stelt een eenvoudig maar belangrijk vraagstuk: kunnen we die testscores vertrouwen om te zeggen wie daadwerkelijk globale competentie bezit, en zijn ze eerlijk voor verschillende groepen leerlingen?

Figure 1
Figuur 1.

Nauwkeurige blik op een wereldwijde schooltest

De PISA-toets van 2018 over globale competentie werd afgelegd door 15‑jarigen in veel landen en werd gezien als een belangrijke indicator voor hoe goed onderwijssystemen jongeren voorbereiden op een onderling verbonden wereld. Toch hebben onderzoekers en onderwijzers vermoedens geuit dat het begrip globale competentie lastig te definiëren is en mogelijk gekleurd wordt door westerse opvattingen en culturele vooroordelen. Dit artikel zoomt in op de Canadese leerlingen die de toets maakten en onderzoekt vragen en resultaten zorgvuldig. De auteur gebruikt een gestructureerde benadering van validiteit: eerst nagaan of antwoorden consistent worden gescoord, vervolgens of scores vergelijkbaar zijn over verschillende toetsversies, of ze overeenkomen met andere aanwijzingen van globale competentie, en tenslotte of ze jongens en meisjes eerlijk behandelen.

Hoe de toets en leerlingen werden geanalyseerd

De onderzoeker gebruikte een moderne statistische familie van methoden die niet alleen kijkt of leerlingen items goed of fout beantwoorden, maar ook hoe kenmerken van de toets en kenmerken van de leerlingen de moeilijkheid van elk vraagitem beïnvloeden. De globale-competentie-items van PISA zijn gegroepeerd in kleine verhalende sets, zogenaamde “testlets”, en worden aangeboden in verschillende boekjes of vormen. De studie behandelde elke boekjesgroep afzonderlijk, vulde kleine hoeveelheden ontbrekende gegevens in met terughoudende imputatie en combineerde vervolgens resultaten over groepen heen met meta-analyse. Naast testscores werden de antwoorden van leerlingen op vragenlijsten gebruikt over vertrouwen in het omgaan met mondiale kwesties, respect voor mensen uit andere culturen, bewustzijn van interculturele communicatie en houdingen ten opzichte van immigranten.

Wat de studie vond over de kwaliteit van scores

De analyse liet zien dat de verhalende groeperingen van vragen op zichzelf niet vervormden hoe moeilijk items leken. Met andere woorden, het simpelweg samenplaatsen van vragen in een scenario beïnvloedde de resultaten niet sterk zodra de algemene vaardigheid in rekening werd gebracht. Sommige boekjes maakten items echter iets moeilijker dan andere, wat suggereert dat welke vorm een leerling kreeg de scores enigszins kon beïnvloeden. Op leerlingniveau presteerden degenen die hogere zelfgerapporteerde vertrouwen hadden in het omgaan met mondiale vraagstukken, meer respect toonden voor culturele diversiteit en grotere gevoeligheid voor interculturele communicatie doorgaans beter op de cognitieve taken. Deze verbanden waren over het algemeen stabiel tussen de verschillende boekjes. Niet elk gerelateerd kenmerk gedroeg zich zoals verwacht: sommige meetinstrumenten voor een globale ingesteldheid of bewustzijn van wereldproblemen hadden zwakke of zelfs licht negatieve verbanden met testprestaties, wat benadrukt hoe complex en gelaagd globale competentie werkelijk is.

Figure 2
Figuur 2.

Onderzoek naar billijkheid tussen meisjes en jongens

De studie onderzocht ook of bepaalde vragen een oneerlijk voordeel gaven aan meisjes of jongens zodra de algemene vaardigheid werd gecontroleerd. Voor de meeste items waren de verschillen tussen geslachten klein en inconsistent, wat betekent dat de vragen zich voor beide groepen vergelijkbaar gedroegen. Een aantal vragen toonde echter matige of grote voordelen, vaker in het voordeel van meisjes en incidenteel van jongens. Deze waren weinig in aantal maar consistent genoeg over toetsvormen om nader onderzoek te rechtvaardigen. Cruciaal is dat er geen aanwijzing was dat de toets als geheel tegen een van de geslachten was bevooroordeeld, maar enkele individuele vragen kunnen in toekomstige versies worden verfijnd of vervangen.

Wat dit betekent voor het gebruik van scores voor globale competentie

Voor lezers buiten de testwereld is de conclusie dat PISA’s 2018-scores voor globale competentie van Canadese leerlingen grotendeels betrouwbaar zijn: ze vatten een reële vaardigheid samen die verband houdt met hoe jongeren denken over en reageren op mondiale en interculturele situaties, en doen dat op hoofdlijnen op eerlijke wijze. Tegelijkertijd benadrukt de studie dat details van testontwerp — zoals welk boekje een leerling ontvangt en hoe vragenlijstkenmerken worden gedefinieerd — de resultaten subtiel kunnen vormen. Het laat zien dat het meten van iets zo rijk als globale competentie mogelijk is, maar voortdurende aandacht vereist voor hoe vragen geformuleerd zijn, hoe ze gegroepeerd zijn en hoe ze werken voor verschillende typen leerlingen.

Bronvermelding: Yavuz, E. Validity and fairness of the PISA 2018 Global Competence assessment: an argument-based evaluation via explanatory item response models. Humanit Soc Sci Commun 13, 570 (2026). https://doi.org/10.1057/s41599-026-06979-6

Trefwoorden: globale competentie, PISA 2018, onderwijsevaluatie, toetsbillijkheid, item-responsmodellering