Clear Sky Science · zh

VolE：用于食品三维重建与体积估算的点云框架

2026-03-06 · 返回目录

为什么测量晚餐很重要

从一张照片中计算热量听起来像魔法，但对医生和营养师来说，这可能是一个强有力的工具。准确了解人们实际摄入的食物量对应糖尿病和肥胖等疾病的管理至关重要，然而在日常生活中称重每一餐显然不现实。本文提出了 VolE，一种新方法，可让普通现代智能手机构建单个食物项的详细三维模型并以惊人精度估算其体积——无需特殊硬件、参照卡或深度传感器。

从简单照片到实体形状

VolE 的核心思想是将一段简短随意的手机视频转换为可精确测量的三维形状。当用户缓慢移动手机环绕菜肴时，设备内置的增强现实功能（Android 上的 ARCore 或 iOS 上的 ARKit）同时记录图像和摄像机在真实空间中的精确位置与朝向。VolE 将这些图像流和相机轨迹结合起来，重建食物的密集“点云”——成千上万个在空间中浮动的小点，勾勒出物体的表面。由于手机的 AR 系统已经知道真实世界的距离，这个虚拟对象以正确的物理尺度创建，解决了计算机视觉长期存在的一个问题：虽然可以恢复 3D 形状，但往往无法确定其真实尺寸。

定位食物并清理场景

食物照片通常很复杂：盘子、桌面和背景杂物争夺注意力。VolE 通过自动视频分割步骤来应对这一点，类似一把智能剪刀。名为 FoodMem 的模型识别出在视频所有帧中属于食物的像素，即使在手机移动或食物部分被遮挡时也能识别。借助精化后的相机位姿，VolE 将 3D 点投影到每一分割后的图像中，仅保留在每个视角中都一致落在食物上的点。结果是一个干净的、仅属于目标项的孤立点云，同时大部分背景点和分割错误被滤除。

从点到可测量的物体

点云本身难以测量，因此 VolE 将其转换为连续的数字表面，称为网格。专门的 3D 软件将相邻点缝合成微小三角形，像紧贴的皮肤一样包裹食物，填补小缝隙并使物体成为“无缝封闭体”。随后通过平滑、去噪和优化步骤对网格进行精化，去除凸起和孔洞而不在实质上改变真实尺寸。最后采用一条数学技巧，即散度定理：将表面分解为许多小片段，每片都被视为以原点为锚的小金字塔。对这些片段的带符号体积求和即可得到食物的总体积（以立方厘米为单位），随后可通过标准密度表将体积转换为重量和热量。

在真实食物和苛刻基准上的测试

为评估 VolE 的效果，作者构建了一个新的“Foodkit”数据集，包含 21 种真实食物——从苹果和香蕉到卷饼与糕点——每种食物拍摄 700–1200 张图像。他们使用置换水量法测量真实体积并用实验室天平测量质量，然后将这些数值与 VolE 的估计值进行比较。对所有样本而言，平均体积误差约为 1–2%，对应约 99% 的精度，并且在多次运行中保持稳定，尽管重建软件内部存在随机性。VolE 还在用于国际竞赛的具有挑战性公开数据集上进行了评估，其表现优于或可与现有最佳食物体积估算方法匹配，同时不需要校准板、深度传感器或固定摄像装置。

这对日常健康意味着什么

通俗地说，这项工作表明，你已经拥有的手机在合适算法的帮助下，可以像实验室设备那样几乎同样准确地测量食物。通过将随意拍摄的视频转为精确的 3D 模型，VolE 消除了对秤、专用扫描仪或带参考物的精心摆拍的需求。尽管目前该方法在以盘中单个主食物项为最佳且仍在高性能计算机上运行而非直接在手机上执行，但该方法指向了一个不久的将来：膳食跟踪应用能够自动且可靠地估算份量大小。这可能使长期营养监测更加客观、负担更小，并让管理健康的人在日常环境中更容易获得可行的数据。

引用: Haroon, U., AlMughrabi, A., Zoumpekas, T. et al. VolE: A point-cloud framework for food 3D reconstruction and volume estimation. Sci Rep 16, 8648 (2026). https://doi.org/10.1038/s41598-026-38756-5

关键词: 食物体积估算, 3D 重建, 移动健康, 增强现实, 膳食评估