Clear Sky Science · zh

基于图表示学习的教育内容自动文本可读性评估

2026-02-27 · 返回目录

对教师和学习者的重要性

当教师挑选阅读材料时，需要在挑战性与可达性之间取得微妙平衡：文本应足够具有挑战性以促进成长，但又不能令学生放弃。本文提出了一种新的人工智能方法，能够评估段落的阅读难度，尤其针对教育材料。该系统超越了对单词和句子计数的简单统计，考察语言的深层结构，旨在比传统的可读性公式更准确地将合适的文本匹配给合适的读者。

传统可读性评分的局限

几十年来，学校依赖诸如Flesch–Kincaid之类的公式，这些方法根据表面线索——例如句子长度和音节数——来判断难度。这些方法计算简单，但对真实世界的许多复杂性视而不见。一个短小的科学段落如果充斥专业术语，或一个句子结构扭曲，仍可能被标记为“简单”，因为其单词短、句子短。结果是，教师可能无意中分配对部分学生过于繁重或对另一些学生过于简单的材料，尤其是在科学和社会研究等内容密集的学科中。

深入句子内部

作者提出了一种不同的方法，将每个句子视为一个网络。每个单词成为一个点（或节点），单词之间的语法联系——例如主谓或动宾——成为连接（边）。关键在于，每条连接的强度不仅取决于句子中的距离，还取决于连接两端之间出现的是哪类词。由名词、动词和形容词等实义词填满的长距离路径暗示着认知上的高负荷；而较短的路径或主要由小功能词构成的路径则暗示理解更容易。心理语言学研究表明，这类长且以实义词为主的绕行会增加工作记忆负担并减慢理解速度，因此模型将其作为更高难度的信号。

教网络去“读”网络

为了利用这种将句子视为网络的理念，研究采用了一类专为图结构设计的神经网络，称为图卷积网络（Graph Convolutional Network）。在图模型运行之前，另一个类似于广泛使用的BERT等系统的AI引擎会为每个单词创建丰富的数值表示，反映其在上下文中的含义。图网络随后沿着单词之间的连接传递信息，将意义与结构融合，形成对整段文本的单一摘要表示。该摘要被输入到最终层，输出连续的可读性分数，而不是简单的分级区间，从而允许对文本进行更细致的区分。

为了从系统中榨取最佳性能，作者使用了贝叶斯优化，这是一种自动同时搜索多个“旋钮”最佳设置的策略。这些旋钮包括不同词类对连接强度的影响程度、图层的数量以及模型学习的速度。优化过程不是手工调整这些选择，而是基于验证结果系统性地测试和改进它们。

实践中的效果如何

该模型在CLEAR数据集上进行了测试，CLEAR是一个包含约5,000篇短文的大型集合，每篇文章都有专家分配的可读性评分和类似电影分级的内容评级（G、PG、PG-13和R）。在严格的交叉验证方案下，系统能解释约97%的评分变异，这一准确度超过了传统基于特征的方法以及仅基于变换器模型的强现代基线。当将该方法应用于最初用于将文本分类为容易、中等和困难水平的波斯语数据集时，表现也很好：同一难度组内的段落往往得到相似的预测分数，这表明模型在英语中学到的有关结构的信息可以迁移到另一种语言。

对课堂的意义

对教育工作者和课程设计者而言，主要结论是：可读性不仅仅关乎长词与长句。信息在句子中的穿插方式——绕行的数量以及填充这些绕行的词的类型——在学生能够多容易地跟上思路方面起着重要作用。通过将文本建模为相互连接的词网络并使用基于图的AI来“阅读”这些网络，本研究提供了一个更精确、灵活的文本难度估计工具。虽然它不能取代人类判断，也无法涵盖文学与社会科学散文的所有细微差别，但它可以作为一个强有力的决策辅助工具，帮助教师选择和调整更符合学生能力并支持更具包容性的学习的文本。

引用: Zhang, L., Abhani, J., B, J. et al. Automatic text readability assessment for educational content based on graph representation learning. Sci Rep 16, 11308 (2026). https://doi.org/10.1038/s41598-026-41313-9

关键词: 可读性评估, 教育文本, 图神经网络, 自然语言处理, 文本难度