Clear Sky Science · de

Gültigkeit und Fairness der PISA-2018-Bewertung zur Globalen Kompetenz: eine argumentbasierte Bewertung mittels erklärender Item-Response-Modelle

2026-03-26 · Zurück zur Übersicht

Warum diese Studie für den Alltag wichtig ist

Heutige Jugendliche wachsen in einer Welt auf, in der Nachrichten, Freundschaften und zukünftige Arbeitsplätze nationale Grenzen überschreiten. Schulen versuchen, sie darauf vorzubereiten, mit unterschiedlichen Kulturen zurechtzukommen, Online-Informationen zu bewerten und mit Menschen, die anders sind als sie selbst, zusammenzuarbeiten. Das Programm für Internationale Schülereinschätzungen (PISA) versuchte 2018, diese „globale Kompetenz“ zu messen. Diese Studie stellt eine einfache, aber wichtige Frage: Können wir diesen Testergebnissen vertrauen, wenn es darum geht zu sagen, wer tatsächlich global kompetent ist, und sind sie für verschiedene Schülergruppen fair?

Ein genauerer Blick auf einen weltweiten Schultest

Der PISA-Test 2018 zur globalen Kompetenz wurde von 15-Jährigen in vielen Ländern abgelegt und galt als wichtiger Indikator dafür, wie gut Bildungssysteme junge Menschen auf eine vernetzte Welt vorbereiten. Dennoch sorgten sich Forscher und Pädagogen, dass der Begriff der globalen Kompetenz schwer zu fassen ist und von westlichen Perspektiven und kulturellen Verzerrungen geprägt sein könnte. Dieses Papier zoomt auf die kanadischen Schülerinnen und Schüler, die den Test abgelegt haben, und untersucht die Aufgaben und Ergebnisse sorgfältig. Die Autorin verwendet einen strukturierten Validitätsansatz: Zunächst wird geprüft, ob Antworten konsistent bewertet werden, dann, ob die Ergebnisse über verschiedene Testversionen hinweg vergleichbar sind, ob sie mit anderen Indikatoren globaler Kompetenz übereinstimmen und schließlich, ob Jungen und Mädchen fair behandelt werden.

Wie der Test und die Schüler analysiert wurden

Die Forscherin nutzte eine moderne Familie statistischer Methoden, die nicht nur betrachtet, ob Schüler Aufgaben richtig oder falsch lösen, sondern auch, wie Merkmalen der Aufgaben und Merkmale der Schüler die Schwierigkeit jeder Frage beeinflussen. PISAs Items zur globalen Kompetenz sind in kleine, geschichtenbasierte Gruppen, sogenannte „Testlets“, zusammengefasst und werden in verschiedenen Heften oder Formen angeboten. Die Studie behandelte jede Heftgruppe separat, ergänzte geringe Mengen fehlender Daten mit vorsichtiger Imputation und kombinierte dann die Ergebnisse über die Gruppen hinweg mittels Metaanalyse. Neben den Testergebnissen wurden die Antworten der Schüler auf Fragebogenitems verwendet, etwa zur Selbstsicherheit im Umgang mit globalen Problemen, zur Wertschätzung von Menschen aus anderen Kulturen, zum Bewusstsein für interkulturelle Kommunikation und zu Einstellungen gegenüber Einwanderern.

Was die Studie über die Qualität der Ergebnisse fand

Die Analyse zeigte, dass die geschichtenbasierten Gruppierungen der Aufgaben an sich nicht verzerrten, wie schwierig die Items erscheinen. Anders gesagt: Das bloße Zusammenstellen von Fragen in einem Szenario beeinflusste die Ergebnisse nicht stark, sobald die allgemeine Fähigkeit berücksichtigt wurde. Einige Hefte machten die Items jedoch geringfügig schwieriger als andere, was darauf hindeutet, dass die Form, die ein Schüler erhielt, die Punktwerte etwas nach oben oder unten schieben kann. Auf Schülerebene zeigten diejenigen, die höhere Selbstsicherheit im Umgang mit globalen Fragen angaben, mehr Wertschätzung für kulturelle Vielfalt und größere Sensibilität für interkulturelle Kommunikation, tendenziell bessere Leistungen in den kognitiven Aufgaben. Diese Zusammenhänge waren im Großen und Ganzen über die verschiedenen Hefte stabil. Nicht jedes verwandte Merkmal verhielt sich wie erwartet: Einige Maße von globaler Einstellung oder Aufmerksamkeit für Weltfragen wiesen schwache oder sogar leicht negative Verbindungen zur Testleistung auf, was die Komplexität und Vielschichtigkeit globaler Kompetenz unterstreicht.

Prüfung der Fairness zwischen Mädchen und Jungen

Die Studie untersuchte außerdem, ob einzelne Fragen einem Geschlecht einen unfairen Vorteil verschafften, wenn die allgemeine Fähigkeit kontrolliert wurde. Bei den meisten Items waren die Geschlechtsunterschiede winzig und inkonsistent, das heißt, die Fragen verhielten sich für beide Gruppen ähnlich. Eine Handvoll Fragen zeigte jedoch moderate oder größere Vorteile, häufiger zugunsten von Mädchen und gelegentlich zugunsten von Jungen. Diese waren zwar zahlenmäßig gering, aber über die Testformen hinweg ausreichend konsistent, um eine genauere Überprüfung zu rechtfertigen. Wichtig ist, dass es keinen Hinweis darauf gab, dass der Test als Ganzes zuungunsten eines Geschlechts verzerrt ist, aber einige einzelne Fragen könnten in zukünftigen Versionen verfeinert oder ersetzt werden.

Was das für die Verwendung von Global-Kompetenz-Scores bedeutet

Für Leser außerhalb der Testwelt lautet das Fazit: Die PISA-2018-Scores zur globalen Kompetenz für kanadische Schüler sind überwiegend zuverlässig: Sie erfassen eine reale Fähigkeit, die damit zusammenhängt, wie junge Menschen über globale und interkulturelle Situationen denken und reagieren, und tun dies in weitgehend fairer Weise. Gleichzeitig macht die Studie deutlich, dass Details des Testdesigns — etwa welches Heft ein Schüler erhält und wie Fragebogenmerkmale definiert werden — die Ergebnisse subtil beeinflussen können. Sie zeigt, dass die Messung eines so vielschichtigen Konstrukts wie globaler Kompetenz möglich ist, aber ständige Aufmerksamkeit erfordert, wie Fragen formuliert, wie sie gruppiert und wie sie für unterschiedliche Schülertypen funktionieren.

Zitation: Yavuz, E. Validity and fairness of the PISA 2018 Global Competence assessment: an argument-based evaluation via explanatory item response models. Humanit Soc Sci Commun 13, 570 (2026). https://doi.org/10.1057/s41599-026-06979-6

Schlüsselwörter: globale Kompetenz, PISA 2018, Bildungsbewertung, Testfairness, Item-Response-Modellierung