Clear Sky Science · zh
用于自适应非参数降维的一般框架
为什么缩减大数据很重要
现代生活依赖数据:医学扫描、在线购物记录、照片、新闻源等等。每条记录可能包含数百或数千个测量值,使得存储、分析甚至可视化都变得困难。科学家使用“降维”将这种复杂性压缩为更简单的图像和模型,同时保留重要模式。但现有流行工具通常需要大量人工选择和反复试验。本文提出了一种让数据自身决定最佳缩减方式的方法,目标是获得更清晰的图像、更准确的学习结果,以及减少用户的猜测工作。
从简单的直线到弯曲的真实形态
经典的简化工具主成分分析(PCA)类似于用光照射物体并观察其投影:它找到能解释大部分变异性的最佳平面方向。当数据结构大致是直线或平面时,这非常有效。但真实数据——例如图像、文本或传感器读数——常常位于高维空间中隐藏的弯曲表面上。在过去二十年里,Isomap、局部线性嵌入(LLE)、谱嵌入和UMAP等“非线性”方法被专门设计用于揭示这些曲折形状。它们依赖局部邻域:对每个点,查看其最近邻并在绘制低维图像时尽量保留这些小尺度关系。然而,这些方法迫使用户选择两个关键参数:使用多少邻居和投影到多少维。选择不当会导致误导性结果或计算代价高昂。
让数据自己选择邻域
作者基于一种最近的统计工具——内在维度估计器,提出了解决一个简单问题的方法:在剔除噪声后,数据真正变化的独立方向有多少?他们的估计器称为 ABIDE,功能更进一步。对于每个点,它会自动搜索一个看起来相对均匀的邻域——既不过小以至于噪声主导,也不过大以至于发生扭曲。这样做会返回两类信息:数据真实维度的全局估计,以及为每个点量身定制的邻域大小。这将通常固定的“邻居数量”转换为一个局部自适应的量,可以在稀疏区域增长,在密集区域缩小,从而匹配数据的实际密度。
关键词: 降维, 流形学习, 近邻, 内在维度, 数据可视化