Clear Sky Science · ar

تَبَنّي نظام بصري نَمَائي بشِبَهِ الإنسان يولِّد رؤية ذكاء اصطناعي متينة ومبنية على الشكل

2026-04-24 · العودة إلى الفهرس

لماذا يهم تعليم الحواسيب أن ترى مثل الأطفال

تستطيع تقنيات الرؤية الحاسوبية الحديثة تصنيف صورك وتوجيه السيارات ذاتية القيادة، لكنها لا تزال ترى العالم بطريقة مختلفة جداً عنا. ففي حين يفهم الناس بشكل بديهي الشكل الكلي للأشياء ويتعاملون مع الضبابية والضوضاء والفوضى، يعتمد كثير من أنظمة الذكاء الاصطناعي على قوام سطحية دقيقة وتنهار عندما تتشوّه الصور. يستكشف هذا المقال فكرة جديدة: بدلاً من تكبير نماذج الرؤية فقط، ماذا لو ربّيناها بطريقة أقرب لتربية الأطفال البشر، بتدرّج ما تُظهِره لهم على مدى الزمن؟

Figure 1. يتعلّم الذكاء الاصطناعي رؤية متينة باتباع نفس الرحلة البصرية من الضبابية إلى الوضوح التي يمرّ بها بصر الإنسان منذ الطفولة وحتى البلوغ.

كيف ترى الحواسيب والبشر مختلفين حالياً

تُدرّب معظم أنظمة الرؤية الشائعة منذ البداية على صور حادة عالية التباين وملوّنة بالكامل. ونتيجة لذلك، تميل هذه النماذج إلى الاعتماد بشكل كبير على تفاصيل السطح مثل نقش الفراء أو نسيج الطوب. في اختبارات مصمّمة بعناية حيث يتعارض محيط الجسم مع نمطه السطحي، يختار البشر تقريباً دائماً وفقاً للمحيط، بينما تميل الشبكات القياسية إلى اتباع القوام. كما تكافح هذه النماذج لاكتشاف أشكال بسيطة مخفية في مشاهد مزدحمة، ويمكن أن ينهار أداؤها تحت الضبابية أو الضوضاء أو تعديلات رقمية صغيرة غير مرئية لنا. تشير كل هذه المشكلات إلى اختلاف جوهري بين الرؤية الاصطناعية والبشرية.

استعارة الطفولة البصرية للإنسان

لا يولد أطفال البشر ببصر واضح فوري. فالعالم لديهم في البداية ضبابي، منخفض التباين وفقير في الألوان، ولا يصبح حاداً وزاهياً إلا ببطء على مدى سنوات. جمع الباحثون عقوداً من الدراسات عن كيف تنضج ثلاث خصائص للرؤية منذ الولادة وحتى نحو 25 سنة: الحدة، والحساسية للتباين، والحساسية للألوان. حوّلوا هذه القياسات إلى «منهج» لمعالجة الصور يسمّونه النظام البصري النمائي. أثناء التدريب، تُقدَّم الصور للشبكة مبدئياً مضبّبة جداً ومنخفضة التباين وقريبة من الرمادي، ثم تتدرّج خطوة بخطوة لتصبح أوضح وأكثر تبايناً وملوّنة بالكامل، معاكسةً نمو البصر البشري.

من اتباع القوام إلى التركيز على الشكل

قورنت الشبكات العميقة المدربة بهذا النظام البصري النمائي مع التدريب التقليدي عالي الجودة. عبر تصاميم نماذج ومجموعات صور متعددة، أنتج النهج الجديد تفضيلاً أقوى بكثير للشكل، وصولاً إلى النطاق الذي يُرى لدى المراقبين البشر مع فقدان ضئيل في دقة التعرف القياسية. عندما فحص الباحثون أجزاء الصورة التي اعتمدت عليها النماذج، ركّزت الأنظمة المدربة نمائياً على مناطق الأجسام الكاملة، بينما تمركزت النماذج التقليدية على رقع قوام صغيرة أو مناطق الخلفية. أظهرت اختبارات إضافية أن التحسّن التدريجي في التباين، أكثر من الضبابية أو اللون بمفردهما، لعب دوراً رئيسياً في دفع الشبكات نحو استخدام البنية العريضة للأجسام بدلاً من التفاصيل المحلية المتناثرة.

Figure 2. توجّه الصور المتدرّجة في الوضوح الشبكة الاصطناعية من الاعتماد على القوام إلى التعرف على أشكال الأجسام الكاملة التي تقاوم الضوضاء والتشويش.

التعرّف على الأشكال المخفية والتعامل مع الصور الفوضوية

بعد ذلك تحدّى الفريق النماذج بصور تُدمَج فيها أشكال مألوفة مثل الدراجة أو الدولفين بشكل خفي داخل مشاهد معقّدة. يكتشف الناس هذه المحيطات بسهولة، لكن معظم الأنظمة الحالية، بما في ذلك نماذج الرؤية-اللغة الكبيرة، تستجيب في الغالب لخلفية المشهد. كانت الشبكات المُربّاة على النظام البصري النمائي أفضل بكثير في استدعاء الأشكال المخفية وأقل تشتيتاً بمحتوى المشهد. كما تحمَّلت أداءً أكثر ثباتاً عندما تْشوّهت الصور بالضبابية أو الضوضاء أو الإضاءة السيئة أو تأثيرات تشبه الطقس مثل المطر والثلج، وغالباً ما طابقت اتجاهات البشر. وحتى في مواجهة هجمات عدائية، حيث تغييرات رقمية صغيرة تخدع العديد من النماذج، بقيت الأنظمة المدربة نمائياً أدق بكثير من نظرائها التقليديين أو المدربين عدائياً.

ما الذي يعنيه ذلك لذكاء اصطناعي أكثر أماناً وأقرب للبشر

من خلال إطعام الذكاء الاصطناعي طفولة بصرية تُحاكي تجربتنا، تُظهر هذه الدراسة أن طريقة تدريب النموذج يمكن أن تكون مهمة بقدر حجم النموذج نفسه. دفع منهج بسيط مستوحى من البيولوجيا الشبكات بعيداً عن حيل القوام الهشة ونحو استخدام متين للشكل، وتحسّن في التعرف على الأشكال المجردة ضمن الفوضى، ومقاومة أفضل للتشويشات الطبيعية والهجمات العدائية. للقراء غير المتخصّصين، الرسالة الأساسية هي أن البدء بـ«بصر ضعيف» وتركه ينضج يمكن أن يساعد الآلات على اكتساب طرق رؤية أكثر صلابة وتشابهاً مع البشر، ما يوفّر مساراً أكثر كفاءة في الموارد نحو رؤى ذكاء اصطناعي أكثر أماناً.

الاستشهاد: Lu, Z., Thorat, S., Cichy, R.M. et al. Adopting a human developmental visual diet yields robust and shape-based AI vision. Nat Mach Intell 8, 735–748 (2026). https://doi.org/10.1038/s42256-026-01228-6

الكلمات المفتاحية: رؤية الذكاء الاصطناعي, التطوّر البصري, انحياز الشكل, الإدراك المتين, التعلّم العميق