Clear Sky Science · zh

基于大型语言模型的知识图谱构建与精细化抽取技术

· 返回目录

为复杂决策绘制更智能的地图

在大型运营、基础设施管理或灾害响应等高风险领域,现代决策依赖于快速理解大量分散的信息。手册、传感器数据、报告和模拟各自提供部分线索,但它们很少以便于人类或计算机使用的方式组织起来。本文提出了一种将这些碎片化信息转化为由大型语言模型驱动的“知识地图”的方法,从而使规划人员和分析师能够提出更好的问题,并获得更快、更可靠的答案。

Figure 1
Figure 1.

从分散事实到相互关联的知识

作者聚焦于知识图谱,这是一种将信息表示为相互连接事实网络的方式——谁在何时用何种系统在何种条件下做了什么。在日常场景中,此类图谱已为搜索引擎和推荐系统提供支持,但专业领域带来了更严峻的挑战:数据敏感、术语繁复、格式从自由文本报告到传感器日志不等,并且条件变化迅速。依赖手工规则或小型模型的传统工具难以跟上,而通用语言模型常常误读技术术语或遗漏对实际决策至关重要的细微关系。

教大型语言模型一门新专长

为了解决这些问题,研究对一个强大的基础语言模型在精心设计的领域特定数据集上进行了微调。该数据集来源于指挥通信、设备手册、模拟情景和专家文献。在任何材料进入模型之前,都进行了严格的脱敏处理:具体坐标被改为相对位置,单位名称转为通用代号,敏感逻辑在保留总体模式的同时部分屏蔽。数据以结构化格式存储,描述更广泛的情境、具体任务(如规划、威胁排序或问答)及其之间的关联。这种结构让模型不仅学习孤立事实,还能理解不同任务如何共享上下文。

为不同任务设置的多层适配

作者并未对语言模型的所有参数进行全面重训练——这既昂贵又风险高,而是采用了一种称为低秩适配的技术,将其组织为若干层,每层关注问题的不同方面。一层捕捉基本术语与概念,另一层嵌入作业规则与约束,第三层专门适配特定任务,例如规划或威胁评估。一个独立的控制组件——“路由”网络——会查看每条输入并决定模型应使用哪些轻量级适配器的组合。这一设计使系统能够在保留通用语言能力和领域专长的同时高效地在任务间切换。

Figure 2
Figure 2.

构建与校验知识网络

在微调模型之上,作者设计了一个混合流水线来构建知识图谱。首先,对原始数据进行清洗和标准化,以确保术语与格式一致。然后,基于规则的方法和专家设计的模板提取明显的实体与事件。微调后的语言模型负责更复杂的工作:将冗长混乱的报告压缩为简明摘要、识别关键参与者与设备,并推断因果链或单位间协同等关系。每条提取的事实都会从多个角度打分——与已知模式的匹配度、与其他事实的连接强度,以及它是否符合通过图谱的多步推理路径。只有高置信度的结果才会被纳入,低置信度的结果则会被标记以供审查。

在准确性与可靠性方面的验证收益

团队在三项反映实际需求的核心任务上评估了他们的方法:回答关于规则与设备的复杂问题、为特定情境提出行动方案、以及按严重性对不同威胁情景进行排序。在这些任务中,经过适配的模型持续优于知名通用系统,包括一些训练更为泛化的前沿模型。它能更准确地回答问题,生成更现实的方案,并更准确地对威胁进行排序。生成的知识图谱既大又紧密连接,超过90%的存储事实通过了严格的置信度校验,帮助规划者更快地做出稳健决策。

此项工作的长期意义

对非专业读者来说,核心信息是:如果用正确的数据训练、以明确规则约束并持续进行质量检查,语言模型可以从花言巧语的“会说话者”转变为谨慎的领域专门分析器。该工作展示了如何在敏感且变化快速的领域做到这一点,同时保护私人信息。这个框架不仅将分散的知识组织成可用的网络,还能保持该网络的实时性和可信度,为未来任何需要在复杂决策中把关的领域提供了决策支持系统的蓝图。

引用: Peng, L., Yang, P., Juexiang, Y. et al. The construction and refined extraction techniques of knowledge graph based on large language models. Sci Rep 16, 8104 (2026). https://doi.org/10.1038/s41598-026-38066-w

关键词: 知识图谱, 大型语言模型, 决策支持, 领域适配, 数据脱敏