Clear Sky Science · ja

異種CNN–トランスフォーマーエンコーディングと次元横断的セマンティック融合による長距離深度推定の改善

· 一覧に戻る

単眼で深さを見る

現代のロボットや自動運転車、ドローンは、物体までの距離を把握するために高価な3Dセンサーに頼ることが多い。本研究は、スマートフォンなどに搭載される普通のカラーカメラでもその能力を大幅に引き上げられることを示す。著者らは単一画像から深度を推定する新しい手法を設計し、特に最も難しい領域――遠方の距離、そこで障害物は小さくぼやけ、誤判断しやすい――に焦点を当てている。

引用: Chen, Y., Yin, Q., Zhao, L. et al. Enhancing long-range depth estimation via heterogeneous CNN-transformer encoding and cross-dimensional semantic fusion. Sci Rep 16, 9396 (2026). https://doi.org/10.1038/s41598-026-36755-0

キーワード: 単眼深度推定, コンピュータビジョン, トランスフォーマーとCNNの融合, 自動運転, 3Dシーン再構築