Clear Sky Science · zh

PISA 2018 全球胜任力评估的信度与公平性:通过解释性项目反应模型的基于证据的论证评估

· 返回目录

这项研究与日常生活的重要性

今天的青少年在一个新闻、朋友圈和未来工作跨越国界的世界中成长。学校试图让他们学会在不同文化之间穿梭、甄别网络信息并与不同背景的人合作。国际学生评估项目(PISA)在2018年试图测量这种“全球胜任力”。本研究提出了一个简单却重要的问题:我们能否信任这些测试分数来判断谁真正具备全球胜任力?这些分数对不同学生群体是否公平?

Figure 1
Figure 1.

对这一全球性学校测试的细致审视

PISA 2018 关于全球胜任力的测试由各国的15岁学生参加,并被视为衡量教育体系在为年轻人应对互联世界方面准备程度的重要指标。然而,研究者和教育工作者一直担心全球胜任力这一概念难以界定,可能带有西方视角或文化偏见。本文聚焦于参加该测试的加拿大学生,细致检查试题与结果。作者采用结构化的效度证据路径:先考察答案评分是否一致,再看不同试卷版本下分数是否一致,是否与其他全球胜任力的指标相符合,最后检验对男女生是否公平。

测试与学生如何被分析

研究者使用了一类现代统计方法,不仅关注学生答对或答错,还考察试题特征与学生特征如何影响每道题的难度。PISA 的全球胜任力题目按小的情境故事组(称为“试题组”)分组,并以不同的册子(或表)呈现。研究对每个册子组分别处理,谨慎插补少量缺失数据,然后通过元分析将各组结果合并。除认知得分外,研究还使用了学生在问卷中关于处理全球议题的自信、对其他文化人群的尊重、跨文化交流意识以及对移民态度的回答。

关于分数质量的发现

分析显示,基于故事的题组本身并未扭曲题目表现出的难度。换言之,一旦总体能力被控制,把题目放在情境中并不会强烈影响结果。然而,某些册子确实使题目略显更难,表明学生收到的试卷形式会略微影响分数。在个体层面上,报告在处理全球议题上更有信心、对文化多样性更尊重、以及对跨文化交流更敏感的学生,通常在认知任务上表现更好。这些关联在不同册子之间总体稳定。但并非所有相关特质都如预期那样表现:有些关于全球意识或世界问题认知的测量与测试成绩的关联较弱,甚至略为负向,凸显了全球胜任力的复杂性和多层次性。

Figure 2
Figure 2.

检验男女公平性

研究还检验了在控制总体能力后,是否有特定题目对男女一方产生不公平的优势。对于大多数题目,性别差异很小且不稳定,说明这些题目对两性表现相似。有少数题目显示出中等或较大的优势,更多时候偏向女生,偶尔偏向男生。这类题目数量不多,但在不同试卷中表现一致,值得进一步审查。关键是,没有证据表明整个测试系统性地对任何一方不利,但个别题目可以在未来版本中进行润色或替换。

这对使用全球胜任力分数意味着什么

对非测评领域的读者而言,结论是:PISA 2018 对加拿大学生的全球胜任力分数总体上是可信的——它们反映了一种与年轻人如何思考并应对全球与跨文化情境相关的真实能力,并且在总体上相对公正。与此同时,研究强调测试设计细节——例如学生收到哪个册子、问卷特质如何定义——会微妙地影响结果。研究表明,测量像全球胜任力这样丰富的能力是可行的,但需要持续关注题目如何撰写、如何分组以及对不同类型学生的适用性。

引用: Yavuz, E. Validity and fairness of the PISA 2018 Global Competence assessment: an argument-based evaluation via explanatory item response models. Humanit Soc Sci Commun 13, 570 (2026). https://doi.org/10.1057/s41599-026-06979-6

关键词: 全球胜任力, PISA 2018, 教育评估, 测试公平性, 项目反应建模