Clear Sky Science · ar
الانتباه البصري البشري والخوارزمي في مهام القيادة
لماذا يهم هذا في القيادة اليومية
مع تزايد أتمتة السيارات، يبقى سؤال أساسي: هل "ترى" أنظمة القيادة الذاتية الطريق بنفس طريقة رؤية البشر؟ تبحث هذه الدراسة كيف يوجه السائقون البشريون والذكاء الاصطناعي انتباههم البصري في المرور، وتُظهر أن إضافة عنصر من الانتباه الشبيه بالإنسان بعناية يمكن أن تجعل خوارزميات القيادة أكثر ذكاءً وأمانًا—دون الحاجة إلى نماذج ذكاء اصطناعي هائلة الاستهلاك للطاقة.

كيف تتحرك عيون البشر على الطريق
بدأ الباحثون بوضع سائقين مبتدئين وذوي خبرة في بيئة محاكاة للقيادة وتتبعوا حركات أعينهم أثناء قيامهم بثلاث مهام أمان شائعة: اكتشاف المخاطر، تقييم ما إذا كان من الآمن الانعطاف أو تغيير المسار، والكشف عن أشياء غريبة أو خارجة عن السياق. وجدوا أن انتباه السائقين يتبع إيقاعًا موثوقًا ذا ثلاث خطوات. في مرحلة المسح، فور ظهور المشهد، تجري العينان مسحًا واسعًا للمشهد، موجهةً إلى حد كبير بمواقع الأشياء. في مرحلة الفحص، يثبت الانتباه على المنطقة الأكثر معلوماتية—مثل مُشاة يعبرون الطريق أو سيارة تعيق المسار—ويتمعن في تفاصيلها ومعناها. أخيرًا، في مرحلة إعادة التقييم، يقارن السائقون ذلك الجسم الرئيسي مع غيره، محولين النظر ذهابًا وإيابًا لتأكيد قرارهم.
أين تنظر الآلات مقابل أين ينظر الناس
بعد ذلك بنى الفريق نموذجًا عميقًا قائمًا على الانتباه لمشاهد القيادة وقارن "خرائط الانتباه" الداخلية لديه بتلك الناتجة عن حركات عين الإنسان. جعل تدريب النموذج على اكتشاف الأشياء العام انتباهه أقرب إلى البشري إلى حد ما، لكن تعديل النموذج لمهام قيادة محددة غالبًا ما أبعده عن أنماط البشر، لا سيما في مرحلة الفحص الغنية بالمغزى. بشكل عام، ظلت الارتباطات بين انتباه البشر والانتِباه الخوارزمي متواضعة، مما يوحي أن أنظمة القيادة الحالية تواجه صعوبة في اكتشاف المبادئ المنظمة وراء مكان ونمط نظرة البشر ولماذا.

تعليم السيارات أن تستعير التركيز البشري
لاختبار أي أجزاء من انتباه الإنسان تفيد الآلات فعلاً، أدخل المؤلفون مراحل مختلفة من نظرة الإنسان إلى نموذجهم للقيادة. جمع بيانات تتبع العين مباشرة لملايين الصور أمر غير عملي، لذا دربوا مولدًا منفصلًا "لموّلد الانتباه البشري" على عينة صغيرة من خمسة سائقين فقط. تعلّم هذا المولد توقع خرائط حرارة انتباه شبيهة بالبشر للمشاهد الجديدة. عندما استخدم نموذج القيادة الرئيسي مرحلة المسح المكانية المبكرة فقط، فقد أداؤه في كشف الشذوذ وتخطيط المسارات تحسّنًا أو أنتج مسارات تبدو أكثر أمانًا لكنها كانت أكثر عرضة للتصادم. بالمقابل، عند استخدام مرحلة الفحص—حيث يركّز البشر على المنطقة الأكثر معنى—تحسّنت الدقة بما يتجاوز الطرق السابقة التي استعملت نظرة كاملة الطول، وانخفضت معدلات التصادم في مهام التخطيط.
ما الذي لا تزال تفتقده نماذج الرؤية-اللغة الكبيرة
اختبر الباحثون أيضًا نماذج رؤية–لغة كبيرة تجيب عن أسئلة متعلقة بالقيادة أو تنتج تسميات وصفية مكثفة لمشاهد الشوارع ثلاثية الأبعاد. في مهمة الإجابة عن الأسئلة التي تؤكد على الاستدلال على المستوى العالي، لم تفِ إضافة الانتباه البشري بفائدة تذكر وفي بعض الأحيان أضرت، مما يوحي أن هذه النماذج تملك بالفعل الكثير من المعرفة المجردة المطلوبة. لكن في مهمة الوصف المتطلبة التي تقتضي إلحاق كلمات دقيقة بأشياء دقيقة، قدّم انتباه مرحلة الفحص البشري مكاسب كبيرة. هذا يشير إلى أن النماذج الكبيرة قد تجيد الاستدلال عمومًا، لكنها لا تزال تتعثّر عندما يتعين عليها ربط الكلمات ارتباطًا محكمًا بالبقع المحددة في مشهد بصري مزدحم—فجوة يمكن لنظرة الإنسان المساعدة في سدها.
ماذا يعني هذا لسيارات آلية أكثر أمانًا
بعبارات بسيطة، تجادل الدراسة أن ما يفرّق البشر عن ذكاء القيادة الحالي ليس المكان الذي ننظر إليه فحسب، بل كيف نحكم فورًا على ما يهم في المشهد. ذروة الانتباه الدلالي هذه—عندما نمعن النظر في المنطقة الواحدة التي تجعل الموقف آمنًا أو خطيرًا—تتبين أنها الإشارة التي تفتقر إليها العديد من الخوارزميات. من خلال تعلّم تقليد هذه المرحلة من كمية صغيرة من بيانات تتبع العين، يمكن لأنظمة القيادة اكتساب فهم قريب من فهم البشر لمشاهد الطريق دون الاعتماد فقط على نماذج ذكاء اصطناعي أكبر وأكثر تكلفة. يمكن أن يكون هذا "الاختصار الدلالي" وسيلة فعّالة لجعل السيارات الآلية المستقبلية أكثر موثوقية في ظروف المرور الحقيقية الملتبسة وغير المتوقعة.
الاستشهاد: Zheng, C., Li, P., Jin, B. et al. Human and algorithmic visual attention in driving tasks. npj Artif. Intell. 2, 23 (2026). https://doi.org/10.1038/s44387-026-00079-1
الكلمات المفتاحية: القيادة الذاتية, الانتباه البصري, تتبع حركة العين البشرية, نماذج الرؤية واللغة, سلامة المرور