Clear Sky Science · pl

VolE: Ramy punktowych chmur do rekonstrukcji 3D żywności i oszacowania objętości

· Powrót do spisu

Dlaczego pomiar kolacji ma znaczenie

Liczanie kalorii z fotografii brzmi jak magia, ale dla lekarzy i dietetyków może być potężnym narzędziem. Dokładna informacja o tym, ile jedzenia ludzie faktycznie spożywają, jest kluczowa przy zarządzaniu chorobami takimi jak cukrzyca czy otyłość, a ważenie każdego posiłku na wadze kuchennej jest w codziennym życiu nierealistyczne. W artykule przedstawiono VolE — nową metodę, która pozwala zwykłemu nowoczesnemu smartfonowi zbudować szczegółowy trójwymiarowy model pojedynczego produktu spożywczego i oszacować jego objętość z zaskakująco wysoką dokładnością — bez specjalnego sprzętu, karty odniesienia czy sensora głębi.

Figure 1
Figure 1.

Z prostych zdjęć do pełnych kształtów

Główny pomysł VolE polega na przekształceniu krótkiego, swobodnego wideo wykonanego telefonem w precyzyjny kształt 3D, który można zmierzyć. Gdy użytkownik powoli porusza telefonem wokół talerza, wbudowane funkcje rzeczywistości rozszerzonej urządzenia (ARCore na Androidzie lub ARKit na iOS) rejestrują zarówno obrazy, jak i dokładne położenie oraz orientację kamery w przestrzeni rzeczywistej. VolE łączy te strumienie obrazów i ścieżki kamery, aby odtworzyć gęstą „chmurę punktów” jedzenia — tysiące drobnych kropek unoszących się w przestrzeni, które odwzorowują powierzchnię obiektu. Ponieważ system AR telefonu zna już rzeczywiste odległości, obiekt wirtualny powstaje w poprawnej skali fizycznej, rozwiązując długo trwający problem w badaniach widzenia komputerowego, gdzie można odtworzyć kształt 3D, ale nie jego rzeczywisty rozmiar.

Wyszukiwanie jedzenia i oczyszczanie sceny

Fotografie jedzenia są zatłoczone: talerze, stoły i elementy tła konkurują o uwagę. VolE radzi sobie z tym dzięki automatycznemu etapowi segmentacji wideo, działającemu jak inteligentne nożyce. Model o nazwie FoodMem identyfikuje, które piksele należą do jedzenia we wszystkich klatkach wideo, nawet gdy telefon się porusza, a jedzenie jest częściowo zasłonięte. Korzystając z udoskonalonych pozycji kamery, VolE rzutuje punkty 3D na każde pofragmentowane zdjęcie i zatrzymuje tylko te, które konsekwentnie trafiają na jedzenie w każdym widoku. Efektem jest czysta, odizolowana chmura punktów należąca wyłącznie do docelowego elementu, podczas gdy większość punktów tła i błędów segmentacji zostaje odfiltrowana.

Z kropek do mierzalnego obiektu

Samo chmury punktów trudno jest mierzyć, dlatego VolE przekształca je w ciągłą cyfrową powierzchnię zwaną siatką (mesh). Specjalistyczne oprogramowanie 3D łączy sąsiednie punkty w małe trójkąty, które oblekają jedzenie jak ciasna skóra, wypełniając drobne luki i tworząc obiekt „wodoszczelny”. Siatka jest następnie dopracowywana przez wygładzanie, usuwanie szumów i etapy optymalizacji, które eliminują garby i dziury bez znaczącej zmiany rzeczywistego rozmiaru. Na koniec stosowany jest trik matematyczny znany jako twierdzenie o dywergencji: powierzchnię dzieli się na wiele małych kawałków, z których każdy traktowany jest jak mała piramida zakotwiczona w początku układu współrzędnych. Zsumowanie znakowanych objętości wszystkich tych elementów daje całkowitą objętość jedzenia w centymetrach sześciennych, gotową do przeliczenia na masę i kalorie za pomocą standardowych tabel gęstości.

Figure 2
Figure 2.

Testy na prawdziwych potrawach i trudnych benchmarkach

Aby sprawdzić skuteczność VolE, autorzy zbudowali nowy zbiór danych „Foodkit” obejmujący 21 rzeczywistych potraw — od jabłek i bananów po wrapy i wypieki — sfotografowanych w 700–1200 ujęciach każda. Prawdziwą objętość zmierzono metodą wypierania wody, a masę na wadze laboratoryjnej, a następnie porównano te wartości z estymacjami VolE. Dla wszystkich elementów średni błąd objętości wyniósł około 1–2%, co odpowiada w przybliżeniu 99% dokładności, i pozostał stabilny w kolejnych uruchomieniach pomimo wewnętrznej losowości w oprogramowaniu rekonstrukcyjnym. VolE oceniono także na wymagających publicznych zbiorach danych używanych w międzynarodowych konkursach, gdzie przewyższał lub dorównywał najlepszym istniejącym metodom szacowania objętości żywności, nie wymagając tablic kalibracyjnych, sensorów głębi ani stałych stanowisk kamery.

Co to oznacza dla codziennego zdrowia

Mówiąc prosto, praca ta pokazuje, że telefon, który już posiadasz, może przy właściwych algorytmach zmierzyć twoje jedzenie prawie tak dobrze jak sprzęt laboratoryjny. Przekształcając swobodne wideo w dokładne modele 3D, VolE eliminuje potrzebę wag, specjalistycznych skanerów czy starannie przygotowanych zdjęć z obiektami odniesienia. Chociaż obecnie metoda działa najlepiej dla pojedynczego głównego elementu na talerzu i nadal działa na wydajnym komputerze, a nie bezpośrednio na telefonie, wskazuje kierunek ku bliskiej przyszłości, w której aplikacje do śledzenia diety będą mogły automatycznie i wiarygodnie szacować wielkość porcji. To może uczynić długoterminowe monitorowanie żywienia bardziej obiektywnym, mniej uciążliwym i znacznie bardziej dostępnym dla osób zarządzających swoim zdrowiem na co dzień.

Cytowanie: Haroon, U., AlMughrabi, A., Zoumpekas, T. et al. VolE: A point-cloud framework for food 3D reconstruction and volume estimation. Sci Rep 16, 8648 (2026). https://doi.org/10.1038/s41598-026-38756-5

Słowa kluczowe: szacowanie objętości żywności, rekonstrukcja 3D, mobilne zdrowie, rzeczywistość rozszerzona, ocena dietetyczna