Clear Sky Science · tr

RGB koşullu frekans alanı rafinasyonu ile seyrekten yoğuna derinlik tamamlama

· Dizine geri dön

Günlük makineler için daha keskin dijital derinlik

Otonom araçlar, teslimat robotları ve artırılmış gerçeklik başlıkları, nesnelerin neye benzediğini bilmenin ötesinde ne kadar uzakta olduklarını da anlamak zorunda. Güncel lazer sensörleri yalnızca seyrek bir uzaklık noktası seti sağlar; bu da güvenli gezinme veya inandırıcı 3B grafikler için çok yetersizdir. Bu makale, eksik derinlik bilgisini kamera görüntülerini kullanarak "doldurmanın" yeni bir yolunu sunuyor; nesne kenarlarını keskin tutan, yüzey dokularından etkilenmeyen ayrıntılı uzaklık haritaları üretiyor.

Neden uzaklık doldurmak bu kadar zor

Derinlik tamamlama, çok seyrek bir uzaklık örnek kümesini sıradan bir renk fotoğrafı rehberliğinde tam bir derinlik görüntüsüne dönüştürmeye çalışır. Önceki sistemler sıklıkla renk ve derinlik bilgilerini doğrudan bir sinir ağı içinde karıştırır. Bu kestirme iki zıt soruna yol açar. Bir yandan ağ, renk görüntüsündeki tuğla desenleri, çizgiler veya logoları sahte tümsek ve çukurlar olarak derinlik haritasına kopyalayabilir. Öte yandan bu sahte ayrıntıları agresifçe düzleyen yöntemler, bir arabanın veya trafik işaretinin dış hattı gibi gerçek nesne sınırlarını bulanıklaştırma eğilimindedir. Ayrıntı ile güvenilirlik arasındaki denge, gerçek dünya uygulamaları için merkezi bir engel haline gelmiştir.

Figure 1
Figure 1.

Şekilleri yüzey detaylarından ayırmak

Yazarlar farklı bir strateji öneriyor: renk ve derinlik özelliklerini harmanlamak yerine, renk görüntüsünün derinlik verisinin nasıl filtreleneceğine karar vermesine izin vermek, ancak ikisini doğrudan karıştırmamak. Ağları önce seyrek derinliği ve rengi ayrı dallarda işler. Ağın kilit aşamalarında, Guided Refinement Module (Yönlendirilen İyileştirme Modülü) adlı bir modül, renk özelliklerine frekans merceğiyle bakar. Bir dalgacık dönüşümü kullanarak, renk bilgisini geniş şekilleri ve yavaş değişen bölgeleri yakalayan düzgün, düşük frekanslı parçalara ve yapraklar veya pencere çerçeveleri gibi keskin kenarları ve ince dokuları yakalayan yüksek frekanslı parçalara böler.

Her bölgeye uyum sağlayan akıllı filtreler

Renk bilgisi bu şekilde ayrıldıktan sonra yöntem, farklı boyutlarda küçük görüntü filtreleri ailesini öğrenir. Her bölge ve her frekans bandı için ağ, hangi boyutta bir filtre uygulanacağını ve filtrenin ne kadar güçlü olacağını seçer. Derinliğin yavaşça değişmesi gereken düzgün alanlarda büyük filtreler tercih edilir; bu, güvenilir ölçümleri boş bölgeler arasında yaymaya yardımcı olur. Güçlü kenarların yakınında küçük filtreler kullanılır, böylece derinlik haritası bir nesneyi diğerine karıştırmak yerine net sınırları korur. Kritik olarak, filtreler her zaman yalnızca derinlik değerlerini diğer derinlik değerleriyle birleştirir; renk verisi yalnızca hangi filtrenin nerede kullanılacağını yönlendirir. Bu "operatör ama değer değil" bağlantısı, renk görüntüsündeki yüzey dokularının sahte derinlik olarak aktarılmasını engelleyen bir darboğaz görevi görür.

Figure 2
Figure 2.

Güvenilir sinyallere güvenmek, belirsizliği dizginlemek

Uyarlanabilir filtrelemeye rağmen bazı alanlar belirsiz kalır—yağmurla görülen uzak nesneleri veya çok az lazer noktası bulunan bölgeleri düşünün. Bunu ele almak için ağ, erken ve geç aşamalardan gelen ara derinlik özelliklerini karşılaştıran ikinci bir mekanizma kullanır. Erken özellikler ham sensör girdisine daha yakındır ve hangi bölgelerin güvenilir olduğuna dair bir his taşır. Model, hangi yapıların güvenilir olduğunu ve hangi özellik kanallarının en önemli olduğunu vurgulayan dikkat maskeleri (attention masks) oluşturur. Bu maskeler daha sonra kendinden emin ayrıntıları nazikçe güçlendirir ve boru hattının sonraki aşamalarında ortaya çıkan şüpheli değişiklikleri azaltır; bu da aşırı düzlemeyi ve rastgele artefaktları azaltır.

Yollarda ve iç mekanlarda kanıtlanmış kazanımlar

Takım yöntemini iki standart ölçekte test eder: dış mekan sürüş sahneleri için KITTI ve iç mekan odalar için NYUv2. Yöntemleri, birkaç hata ölçüsü boyunca sürekli olarak önde gelen rakiplerle eşleşir veya onları geride bırakır; ayrıca bazı en ağır modellerden daha az parametre kullanır. Özellikle derinlik okumalarının son derece seyrek olduğu durumlarda, örneğin yalnızca birkaç tarama çizgisi veya nokta içeren daha ucuz lazer sensörleri simüle edildiğinde iyi performans gösterir. Görsel karşılaştırmalar, elektrik direkleri gibi daha ince yapıların temiz şekilde korunduğunu ve arabaların ya da mobilyaların arka planlarından daha net ayrıldığını; doku kopyalamanın neden olduğu sahte dalgalanmaların ise çok daha az olduğunu gösterir.

Gerçek dünya 3B görüsü için anlamı

Kamera görüntülerinin derinlik tamamlama yönlendirilme biçimini yeniden düşünerek bu çalışma, renkli görüntülerin kenarlar ve genel düzen gibi yardımcı ipuçlarını korurken yanıltıcı dokularını devralmamanın mümkün olduğunu gösteriyor. Anahtar nokta frekans analizini ve dikkatle sınırlandırılmış etkileşimleri kullanarak rengin derinlik değerlerinin nasıl birleştirileceğine karar vermesini sağlamak, değerlerin ne olması gerektiğini belirlememesidir. Sonuç olarak robotlar, araçlar ve AR cihazları aynı seyrek sensörlerden daha yoğun, daha keskin derinlik haritaları elde edebilir; bu da daha güvenli gezinme ve daha kararlı 3B deneyimleri günlük hayata daha yakın hale getirir.

Atıf: Wang, H., Tang, Z., Pawara, P. et al. RGB-conditioned frequency domain refinement for sparse-to-dense depth completion. Sci Rep 16, 10757 (2026). https://doi.org/10.1038/s41598-026-45432-1

Anahtar kelimeler: derinlik tamamlama, lidar, 3B algılama, bilgisayarlı görü, özerk sürüş