Clear Sky Science · zh

数字文化遗产系统的多模态交互增强：故宫馆藏扫描库的用户行为分析与界面重构

2026-03-30 · 返回目录

把故宫搬到你的屏幕上

坐落于北京的故宫博物院致力于将藏品数字化，投入了大量精力。如今世界各地的参观者可以放大查看那曾需借助放大镜或亲临现场才能看清的精细细节。然而，许多人只停留几分钟就离开了——被图像所震撼却不清楚自己真正学到了什么。本研究提出一个简单却意义重大的问题：如何对数字博物馆进行重新设计，使普通参观者而非仅是专家，能够真正感受并理解这些图像背后的文化？

高清图像与浅薄理解之间

研究者首先指出许多数字遗产项目中存在的张力。高精度扫描与三维模型可以捕捉瓷釉的每一道裂纹或卷轴画的每一笔。但用于展示这些成果的在线系统往往把用户当作被动的观看者。交互主要限于旋转、缩放以及浏览冗长的技术说明。结果是，丰富的文化内涵被专业术语掩埋，大多数参观者最终只是“看见了东西却不了解其故事”。故宫的数字文物库就是一个典型例子：技术上令人印象深刻，但在叙事上支离破碎，对非专业用户难以驾驭。

通过观测目光理解思维

为了揭示不同参观者在这些页面上的真实行为，团队对三类人群进行了眼动追踪实验：专业学者、历史爱好者与一般游客。参与者完成从自由浏览到目标搜索以及比较相关文物等复杂操作的任务。特制眼镜中的微型摄像头记录了他们的注视位置、停留时长以及视线在屏幕上如何跳动。同时，软件记录鼠标点击与滚动操作；每次测试后，志愿者对任务的心理负荷进行打分，并接受深入访谈，说明哪些地方让他们困惑或有所帮助。

同一对象的三种观看方式

数据揭示了三种截然不同的注意力与行为模式。学者大多停留在列出材质、尺寸与年代等技术面板上，沿着从主图到数据再到相关条目的整齐线性路径移动，他们完成任务迅速并报告最低的心理负担。爱好者则不断在主图与解释历史背景与象征意义的部分之间往返，借助故事深化理解。游客则高度关注主3D图像和吸引眼球的推荐内容，常在界面中迷失。他们误读类别标签，被“鎏金”等术语绊倒，误点次数更多，并报告感到信息过载、不知下一步该做什么。换言之，同一页面对专家有用、令爱好者产生兴趣，却在无声中将新手排除在外。

设计一个能倾听并回应的博物馆

作者基于同理心与媒介“物质性”的理论主张，数字遗产应从静态展示转向更具感官性与叙事性的体验。他们提出以视听融合为核心的多模态重设计。视觉上，页面将配备清晰、动态的引导，突出重要细节、显示如龙纹或漆面质感等图案的热点，并根据典型视线路径重新排列版块。听觉上，每件文物将提供分层音频解说：面向学者的专家评论、面向爱好者的叙事故事，以及面向普通游客的通俗导览。语音问答系统允许用户用自然语言提问并获得简短、个性化的回答，同时通过微妙的声音模拟——例如铜钟的鸣响或漆器加工的刮擦声——唤起文物的物理存在感。

从机械点击到活生生的文化体验

对普通读者而言，结论是：好的数字博物馆不仅仅是一个高分辨率的图片库。它应更像一场可根据你的身份与浏览方式调整的导览。通过展示不同类型用户在故宫网站上的真实行为，这项研究为以人类感知而非单纯技术为中心来重构数字遗产系统提供了实证依据。作者尚未完全实现他们的完整设想，但勾勒出一条清晰的路线图：用真实行为数据驱动更直观的视觉、丰富的声音与分层叙事。如果得以实现，这一方法能把匆匆的浅层浏览变为沉浸式的旅程，让人们不仅欣赏古物，也能与这些物品所承载的生活、技艺与价值建立联系。

引用: Ke, L., Qin, H., Long, J. et al. Multimodal interaction enhancement of digital cultural heritage system: user behavior analysis and interface reconstruction of the heritage scanning library of the palace museum. Sci Rep 16, 10654 (2026). https://doi.org/10.1038/s41598-026-44955-x

关键词: 数字文化遗产, 故宫博物院, 博物馆界面设计, 多模态交互, 用户体验