Clear Sky Science · zh

在无外部参考与姿态测量情况下，将数学建模与人工智能结合以实现运动物体的3D坐标识别

2026-03-20 · 返回目录

为何跟踪运动物体的3D位置重要

从城市空域的无人机到偏远天空中的野生动物，许多现代任务都依赖于知道高速运动物体的三维位置。如今这通常需要昂贵的卫星接收器或精密校准的仪器。该研究提出了一种只用几台普通摄像机和智能算法就能跟踪飞行物体在三维空间中位置的方法，为更廉价、更灵活的监测系统铺平了道路。

Figure 1. 使用几台日常摄像机在无需特殊参考设备的情况下追踪飞行无人机在三维空间中的轨迹

看到运动而非测量设备

传统的3D定位工具分为两类。主动系统，如卫星导航或机载传感器，要求被跟踪物携带设备，这对未知或不配合的目标不可行。被动系统，如激光扫描或雷达，不接触目标但依赖昂贵设备或参考标记来确定传感器的指向。作者采取了不同的路径。他们没有事先测量每台摄像机的精确俯仰与旋转，而是注意到运动物体随时间记录下的一系列位置本身可以作为一种自然的参考。如果多台摄像机在物体飞行时同时观测到它，路径的共同形状就把各自的视图联系起来。

将2D相机视图转为共享的3D轨迹

研究团队构建了一个两阶段框架，将人工智能与经典几何融合。首先，基于最新You Only Look Once（YOLOv12）家族的AI检测器扫描每个视频帧，用一个简单的方框标记无人机，从中提取像素坐标。作者并不把每帧孤立看待，而是将模型扩展为一个时间感知版本，称为YOLO Time Series。通过观察无人机在帧间的运动并利用其典型速度，该版本补全漏检并滤除如鸟类或昆虫等伪目标。三台摄像机生成的这些长且清洗过的2D点轨迹成为重建3D路径的原始材料。

Figure 2. 多视角2D相机视图和随时间运动如何结合以揭示无人机的完整3D飞行轨迹

让数学恢复隐藏的相机姿态

在第二阶段，作者应用一种紧凑的数学工具——奇异值分解（SVD）来关联不同的相机视图。在初始的批处理期间，会收集数百帧。来自两个相机的共享2D轨迹揭示了这些相机相对彼此的旋转与位移，尽管它们的指向从未被测量。有了这个相对布局，系统便使用简单的几何规则在某一参考相机的坐标系中对无人机每一时刻进行三角测量以求得3D位置。仅知道摄像机在全球参考系中位于地面的位置后，该方法即可将局部3D路径与世界尺度地图关联，从而以真实距离和高度来表述无人机的运动。

在虚拟空间与实机上的测试

为了检验该想法的极限，研究人员首先对无人机在三台固定摄像机上方沿螺旋路径飞行进行了详细模拟。在这些理想化试验中，他们的框架以仅几毫米的误差恢复了3D坐标，进一步测试显示摄像机放置或像素检测的误差会逐步降低精度。即便在引入此类不完善情况下，对于典型的摄像机间距和图像质量，误差仍然较小。随后团队在一座体育场开展了实地测试，使用三台普通智能手机在100×100×30米的空间内跟踪真实无人机。将重建路径与无人机的机载卫星接收器数据比较，他们报告了约5米的平均误差，并且两条路径的形状高度一致，即便在雨天和弱光条件下也是如此。

这对日常3D跟踪的意义

简而言之，这项工作表明可以将几台廉价摄像机变为对移动物体的实时3D定位器，而无需给摄像机或目标安装精密仪器。通过让物体的运动将各视角连接起来，并将基于学习的检测与简洁的数学公式结合，该框架在有限硬件下提供了快速且相当准确的3D位置。虽然该方法在单个无人机上演示，但相同原理可扩展至其他飞行物体甚至地面目标，为用更简洁的工具观测变化中的地球提供了新途径。

引用: Yi, J., Shang, Kk. & Small, M. Bridging mathematical modeling and AI for 3D coordinate recognition of moving objects without external reference and attitude measurement. Commun Eng 5, 89 (2026). https://doi.org/10.1038/s44172-026-00648-x

关键词: 3D跟踪, 无人机监测, 计算机视觉, 多相机系统, 大地测量定位