Clear Sky Science · ar
IASUNet: استخراج المباني بالاعتماد على Swin-UperNet مع تحسين الانتباه
لماذا يهم رصد كل مبنى من الفضاء
مع تزايد المدن وتغير المناخ، أصبح من الضروري معرفة أماكن المباني بدقة — وكيف تتغير مع الوقت. من تخطيط أحياء أكثر أمانًا ومتابعة البناء غير القانوني إلى توجيه الاستجابة للكوارث بعد الفيضانات أو الزلازل، أصبحت خرائط المباني التفصيلية مكونًا أساسيًا للمدن الذكية والمرنة. تقدم هذه الورقة IASUNet، نظام ذكاء اصطناعي جديد يتعلم تمييز المباني تلقائيًا من صور الأقمار الصناعية عالية الدقة بدقة ملحوظة، حتى في مشاهد العالم الحقيقي المزدحمة والمعقدة.

رؤية المدن من الأعلى
يمكن للأقمار الصناعية الحديثة تصوير الأرض بتفاصيل استثنائية، كاشفة عن الأسطح الفردية والطرق وحتى الأزقة الضيقة. تحويل هذا البحر من البكسلات إلى خرائط مباني نظيفة ليس بالأمر السهل. تتفاوت المباني بشكل كبير في الحجم والشكل واللون والبيئة المحيطة: أبراج زجاجية في مراكز المدن، منازل منخفضة في الضواحي، ومباني زراعية متناثرة في الريف. في المناطق الريفية أو المختلطة، قد تشغل المباني جزءًا ضئيلًا فقط من كل صورة، بينما تهيمن النباتات والتربة والمياه. تقنيات رؤية الحاسوب التقليدية، المبنية أساسًا على الشبكات العصبية التفافية، قد تكافح لالتقاط السياق العام للمشهد كله مع الحفاظ في الوقت نفسه على الحدود الدقيقة، ما يؤدي إلى إغفال هياكل صغيرة أو حواف ضبابية.
انتباه أذكى للتفاصيل
يتعامل IASUNet مع هذه التحديات من خلال دمج فكرتين قويتين: مُشفّر يعتمد على الترانسفورمر يُسمى Swin Transformer، ومفكّك مرن يُعرف باسم UperNet. يقوم Swin Transformer بتقسيم الصورة إلى رقع صغيرة عديدة ويتعلم كيف ترتبط هذه الرقع ببعضها عبر المشهد بأكمله، بدلاً من النظر فقط ضمن نافذة ذات حجم ثابت. يساعد ذلك النموذج على فهم السياق الأوسع — مثل ما إذا كانت المستطيل اللامع يقع داخل كتلة مدينة كثيفة أم في حقل معزول — مع المحافظة على التفاصيل. بالإضافة إلى ذلك، يدمج المؤلفون آلية انتباه تُدعى وحدة انتباه الكتلة الالتفافية (CBAM) في مراحل متعددة. تتعلم CBAM، قناة تلو الأخرى ومنطقة تلو الأخرى، أي ميزات الصورة أكثر احتمالًا أن تكون مبانٍ وأيها يعتبر ضوضاء خلفية، فتقوم بتعزيز الأولى وكبت الأخيرة قبل أن يعيد المفكّك تجميع كل شيء إلى خريطة مبانٍ كاملة.
موازنة الاحتمالات عندما تكون المباني نادرة
عقبة عملية أخرى هي عدم التوازن: في العديد من مشاهد الأقمار الصناعية، تُظهر معظم البكسلات طرقًا أو حقولًا أو أشجارًا أو ماءً، بينما تحتل المباني جزرًا صغيرة فقط. تميل طرق التدريب القياسية إلى تفضيل ما يظهر بكثرة، ما يجعل من المرجح أن يتعلم النموذج معاملة المباني الأقل تكرارًا كملحوظات ثانوية. لمواجهة ذلك، يكيّف المؤلفون دالة خسارة تُدعى Focal Cross‑Entropy. تقلل هذه الاستراتيجية من تأثير بكسلات الخلفية «السهلَة» وتضخم تأثير بكسلات المباني الأصعب تصنيفًا أثناء التدريب. نتيجة لذلك، يولي النموذج اهتمامًا إضافيًا للهياكل الصغيرة والخافتة وغير المعتادة التي قد تُتجاهل خلاف ذلك، مما يحسن الاسترجاع دون إغراق الخريطة بإنذارات كاذبة.

وضع النموذج قيد الاختبار
اختبر الفريق IASUNet على ثلاث مجموعات بيانات معروفة للمباني من ألمانيا ونيوزيلندا والولايات المتحدة، بالإضافة إلى مجموعة مختارة بعناية من صور الأقمار الصناعية الصينية التي أعدوها وفحصوا جودتها بأنفسهم. عبر هذه المقاييس، طابق IASUNet أو تفوق باستمرار على النهج الرائدة، بما في ذلك الشبكات الالتفافية القوية ونماذج أخرى قائمة على الترانسفورمر. على مجموعة بيانات بوتسدام فائقة التفاصيل، وصل إلى تراكب شبه مثالي بين مناطق المباني المتوقعة والحقيقية، مع استمرار التشغيل بسرعات عملية على عتاد الرسوميات الحديث. حتى في المناظر الطبيعية الأكثر عدم انتظام، حيث تكون المباني متناثرة أو مخفية جزئيًا أو متراصة بإحكام، رسم IASUNet مخارج أنظف، والتقط أهدافًا صغيرة أكثر، وتجنّب العديد من الإغفالات وأخطاء الحدود التي تظهر في طرق متنافسة.
من البكسلات إلى مدن أفضل
بعبارات يومية، تُظهر الدراسة أننا نستطيع الآن تعليم الحواسيب قراءة مشاهد المدن من المدار بوضوح غير مسبوق. من خلال توجيه «انتباه» النموذج بعناية إلى الأجزاء الصحيحة من الصورة وموازنة البكسلات النادرة ولكن الحاسمة للمباني عمداً، يحول IASUNet الصور الخام للأقمار الصناعية إلى خرائط مباني دقيقة ومحدّثة بتكلفة حوسبية إضافية متواضعة. يمكن أن تستخدم هذه الخرائط في التخطيط الحضري، ودراسات الطاقة وجزر الحرارة، وتنظيم استخدام الأراضي، والتقييم السريع للأضرار بعد الكوارث. وعلى الرغم من الطابع الفني للعمل في جوهره، فإن استنتاجه بسيط: يمكن للذكاء الاصطناعي الأذكى أن يمنح متخذي القرار رؤية أوضح وأكثر موثوقية للبيئة المبنية، مما يساعد المدن على النمو بطرق أكثر أمانًا واستدامة.
الاستشهاد: Zhang, H., Ma, Y., Wang, G. et al. IASUNet: building extraction based on impoved attention Swin-UperNet. Sci Rep 16, 7969 (2026). https://doi.org/10.1038/s41598-026-36270-2
الكلمات المفتاحية: الاستشعار عن بعد, استخراج المباني, التقسيم الدلالي, شبكات الترانسفورمر, رسم الخرائط الحضرية