Clear Sky Science · ar
مجموعة بيانات fMRI بقدرة 7T لصور تركيبية لاختبار النمذجة خارج التوزيع في الرؤية
لماذا هذا مهم لفهم الرؤية والذكاء الاصطناعي
تستقبل أعيننا مجموعة واسعة من الصور يوميًا، من الغابات والوجوه إلى لافتات الشوارع وضوضاء الشاشة. ومع ذلك، تعتمد معظم دراسات الدماغ والذكاء الاصطناعي على شريحة ضيقة من هذا العالم البصري: صور فوتوغرافية للمشاهد الطبيعية. تقدم هذه الورقة نوعًا جديدًا من مجموعات بيانات الدماغ يكسر عمدًا منطقة الراحة تلك، مستخدمة صورًا تركيبية مصممة بعناية لاختبار حدود كل من نظرياتنا للرؤية البشرية والنماذج الاصطناعية المستوحاة منها.
بناء منصة اختبار بصرية جديدة
يمتد المؤلفون مجموعة البيانات المؤثرة Natural Scenes Dataset (NSD)، التي سجّلت نشاطًا دماغيًا فائق الدقة باستخدام رنين مغناطيسي بقوة 7 تسلا بينما شاهد المشاركون عشرات الآلاف من الصور الفوتوغرافية. لقد غذت تلك المجموعة الأصلية بالفعل بعضًا من أكثر النماذج دقة لتنبؤ استجابة القشرة البصرية للصور. لكن بما أن جميع تلك الصور كانت بصور فوتوغرافية عادية نسبيًا، فمن الصعب معرفة ما إذا كان النموذج الذي يعمل جيدًا على NSD يلتقط مبادئ عامة للرؤية أم أنه أصبح متخصصًا لتلك الحِمية المحددة من الصور. لمواجهة ذلك، أجرى الفريق مسحًا لنفس ثمانية متطوعين مرة أخرى، هذه المرة عرضوا عليهم 284 صورة "تركيبية" تخرُج عمدًا عن عالم الصور الاعتيادية.

صور غريبة، استجابات دماغية موثوقة
تغطي الصور التركيبية ثمان عائلات: أنواع مختلفة من الضوضاء البصرية، مشاهد طبيعية بسيطة وإصداراتها المُعدلة (مثل المقلوبة أو رسومات الخطوط)، مشاهد بتباين منخفض أو طور مبعثر، كلمات مفردة موضوعة في مواقع مختلفة، تدرجات لولبية تفحص الحساسية للنقوش الدقيقة، وبقع ضوضاء ملونة زاهية. بينما ركز المشاركون إما على نقطة صغيرة تومض أو أدوا مهمة مقارنة صور بسيطة، قاس الباحثون نشاط الدماغ كل 1.6 ثانية. يظهرون أن هذه المحفزات الغريبة لا تزال تولد إشارات قوية وموثوقة، لا سيما في المناطق البصرية المبكرة التي تستجيب لميزات أساسية مثل الحواف والتباين واللون. تتوافق أنماط النشاط عبر القشرة مع تفضيلات معروفة لمناطق متخصصة، مثل منطقة مختارة للكلمات تستجيب أكثر للكلمات الموضوعة مركزيًا ومنطقة مختارة للمشاهد تستجيب أكثر لصور البيئات.
إثبات أن البيانات فعلاً "خارج التوزيع"
لكي تتحدّى مجموعة البيانات الجديدة النماذج، يجب أن تكون استجابات الدماغ لها مختلفة فعليًا عن تلك التي تثيرها الصور الفوتوغرافية الطبيعية. يضغط المؤلفون أنماط النشاط من كل من NSD الأصلي وجلسة الصور التركيبية إلى خريطة ثنائية الأبعاد تعكس مدى تشابه الاستجابات عبر الصور. في تلك المساحة، تتجمع الاستجابات للصور التركيبية بشكل منفصل عن استجابات الصور الطبيعية، حتى بعد احتساب اختلافات بين جلسات المسح. علاوة على ذلك، تتجمع الصور التركيبية بطبيعتها بحسب نوعها البصري—الضوضاء مع الضوضاء، والتدرجات مع التدرجات، وهكذا—مما يبيّن أن الدماغ ينظم هذه المحفزات وفق هيكلها الأساسي وليس فقط مظهرها السطحي.

وضع الدماغ ونماذج الذكاء الاصطناعي في اختبار أشد
بوجود هذه المجموعة "خارج التوزيع"، يدرب الفريق نماذج تشفير قياسية: أدوات رياضية تتنبأ باستجابات الدماغ من ميزات الصور المستخرجة بواسطة الشبكات العصبية العميقة. تعمل النماذج المدربة فقط على الصور الطبيعية جيدًا عند اختبارها على صور مشابهة، لكن دقتها تنخفض بشكل ملحوظ عند توقع الاستجابات للصور التركيبية. هذا الانخفاض ليس بسبب بيانات مضطربة—فإن استجابات الصور التركيبية في الواقع نقية جدًا—بل بسبب إخفاقات حقيقية للنماذج. والأهم من ذلك، أن مقارنة بنى الشبكات العصبية المختلفة تحت هذه الظروف الأكثر صرامة تكشف فروقًا لا تظهر بالكاد في اختبارات ضمن التوزيع. على سبيل المثال، يتفوق محول بصري حديث وشبكة مدربة ذاتيًا على الشبكات الالتفافية التقليدية عند مواجهة الصور التركيبية، مما يوحي بأن طريقة تدريب النموذج تشكل بشكل قوي متانته.
إلى أي مدى يمكن أن تبتعد النماذج عن الصور المألوفة؟
يذهب المؤلفون أبعد من ذلك ويعاملون "المسافة" عن بيانات التدريب كمتغير متدرج، لا كتسمية نعم/لا. يقيسون مدى بُعد استجابة الدماغ لكل صورة عن سحابة الاستجابات للمشاهد الطبيعية. كلما ابتعدت صورة تركيبية أكثر في هذه المساحة، ساء أداء النماذج في العادة وكلما قلت دقتها في تحديد أي صورة شاهدها الشخص استنادًا إلى نشاط الدماغ وحده. كما يبرزون أنه حتى ضمن عالم الصور الفوتوغرافية العادية، يمكن لمجموعات اختبار مصممة بذكاء أن تتصرف كأنها "خارج التوزيع بشكل طفيف": تحقق النماذج أفضل أداء على الصور المأخوذة من نفس التجمع الذي دُربت عليه، وأداء أقل على المشاهد الطبيعية البعيدة، والأسوأ على المحفزات التركيبية. تصبغ هذه الصورة المتدرجة مجموعة البيانات الجديدة كأداة لفحص أنواع البُنى البصرية التي تفشل النماذج الحالية في التقاطها بدقة.
ماذا يعني هذا لأبحاث الدماغ والذكاء الاصطناعي المستقبلية
بالنسبة لغير المتخصصين، الرسالة الأساسية هي أن الأداء القوي على الصور المألوفة لا يضمن أن نموذج الذكاء الاصطناعي المستوحى من الدماغ قد استوعب فعلاً طريقة رؤيتنا. من خلال نشر NSD‑synthetic جنبًا إلى جنب مع NSD الأصلي، يوفر المؤلفون "مسار اختبار تحطم" عام لنماذج الرؤية: وسيلة لرؤية أماكن فشلها عندما تصبح الصور أكثر تجريدًا أو أكثر ألوانًا أو أقل طبيعية. وبما أن مجموعة البيانات متاحة علنًا ومتكاملة بإحكام مع مورد موجود ومستخدم على نطاق واسع، فمن المرجح أن تصبح معيارًا لاختبار وتحسين نظريات الرؤية البشرية والشبكات الاصطناعية التي تهدف إلى محاكاتها.
الاستشهاد: Gifford, A.T., Cichy, R.M., Naselaris, T. et al. A 7T fMRI dataset of synthetic images for out-of-distribution modeling of vision. Nat Commun 17, 1589 (2026). https://doi.org/10.1038/s41467-026-69345-9
الكلمات المفتاحية: القشرة البصرية, مجموعة بيانات fMRI, صور تركيبية, خارج التوزيع, الشبكات العصبية العميقة