Clear Sky Science · ar

تجميعة من محولات الرؤية وSwin مع شروح مستندة إلى نماذج لغوية كبيرة لتشخيص أمراض أوراق قصب السكر

· العودة إلى الفهرس

لماذا يهم اكتشاف أوراق قصب السكر المريضة

يعد قصب السكر محصولاً أساسياً لإنتاج السكر والوقود الحيوي ومصدر رزق للعديد من المجتمعات الريفية، لكن أوراقه عرضة لمجموعة من الأمراض التي تقلل المحصول بهدوء. يعتمد المزارعون عادة على الفحص البصري، وهو ما قد يكون بطيئاً ومتفاوت الدقة وصعب التوسع عبر حقول واسعة. تبحث هذه الورقة في كيفية استخدام الذكاء الاصطناعي الحديث لقراءة صور الأوراق تلقائياً لاكتشاف عدة أمراض في قصب السكر بدقة عالية، ثم استخدام نموذج لغوي لتحويل تلك التنبؤات إلى نصائح بسيطة مفهومة للمزارعين.

كيف تتحول صور الأوراق إلى بيانات

بنى الباحثون نظامهم باستخدام مجموعة صور أوراق قصب مفتوحة من كاغل، تحتوي على ما يقرب من عشرين ألف صورة ملونة. تنتمي كل صورة إلى واحدة من ست فئات: سليمة أو واحدة من خمس أمراض شائعة، بما في ذلك التعفن البكتيري، أو الموزاييك، أو التلف الأحمر، أو الصدأ، أو مرض الاصفرار. التقطت الصور في ظروف مزرعية حقيقية، لذا فهي تتضمن تغيّر الإضاءة والظلال وخلفيات مزدحمة. لإعداد البيانات، أزال الفريق الصور المكررة والتالفة، ثم قسموا مجموعة البيانات إلى مجموعات تدريب وتحقق واختبار مع الحفاظ على توازن أصناف الأمراض في كل مجموعة. أثناء التدريب، زيّنوا صور التدريب فقط بعمليات تدوير وانعكاس وتكبير لمحاكاة زوايا وكمسافات كاميرا مختلفة، مما جعل النظام أكثر صلابة دون تضخيم أداء الاختبار.

Figure 1
الشكل 1.

طريقتان مكملتان لمعاينة الورقة

يقع في صميم الدراسة «تجميعة» تجمع نموذجين متقدّمين للرؤية يعرفان بالمحولات. الأول، محول الرؤية (ViT)، يعالج كل صورة كمجموعة من البقع ويتعلم الأنماط عبر الورقة بأكملها دفعة واحدة. هذه النظرة العامة مناسبة للأمراض التي تنتشر كبقع واسعة وممتدة من تغير اللون. الثاني، المسمى Swin Transformer، يعمل بنوافذ صغيرة متراكبة تتحرك عبر الصورة، مبنياً فهماً طبقيًا للقوام الدقيق والبقع الصغيرة. يساعد هذا التركيز المحلي مع الأمراض التي تظهر على شكل آفات دقيقة أو خطوط أو حبيبات. بطبيعته، يكون ViT حساساً لتغيرات الألوان الشاملة بينما يلتقط Swin التفاصيل الصغيرة المتجمعة—جانبان لكيفية ظهور أمراض الأوراق في الحقول الحقيقية.

كيف يتعاون النموذجان

بدلاً من بناء شبكة جديدة معقّدة، جمع المؤلفون ViT وSwin بطريقة بسيطة وشفافة. يفحص كل نموذج أولاً نفس صورة الورقة وينتج درجات احتمالية للفئات الست. تُؤخذ هذه الدرجات وتُعدَل بمتوسطها، دون أوزان يمكن تدريبها إضافياً، وتحدد أعلى احتمالية مجمعة التشخيص النهائي. توازن استراتيجية المتوسط هذه نقاط قوة كل نموذج وتتفادى الانحراف على مجموعة بيانات قد تكون كبيرة إلى حد معقول لكنها ما تزال تعكس مجموعة محددة من المناطق والظروف. تظهر التجارب أن استبدال Swin بشبكة التلافيف التقليدية يفقد تفاصيل محلية حاسمة، واستخدام ViT وحده يفوّت الإشارات الدقيقة—دليل على أن التحسّن ناتج عن التآزر الحقيقي بين الانتباه العام والمحلي، وليس فقط من تكديس نماذج أكثر.

Figure 2
الشكل 2.

مدى كفاءة النظام عملياً

على مجموعة الاختبار المحتفظ بها التي تضم ما يقرب من ثلاثة آلاف صورة، يحقق التجميعة دقة تقارب 97 بالمئة، مع مقاييس دقة واستدعاء وF1 مرتفعة مماثلة عبر جميع الفئات الست. يتفوق على قواعد أساس قوية تعتمد على الشبكات التلافيفية مثل ResNet وEfficientNet وMobileNet وDenseNet، فضلاً عن نماذج ViT وSwin الفردية. تُظهر مصفوفة الالتباس أن معظم الأخطاء تحدث بين أمراض متشابهة بصرياً، مثل الاصفرار والموزاييك، لكن معدلات التصنيف الخاطئ تظل منخفضة إجمالاً. تعكس منحنيات خاصية التشغيل للمستقبل لكل فئة أداءً شبه مثالي، مما يشير إلى أن التجميعة واثقة ومتسقة في فصل الأوراق السليمة عن المريضة وبين أنواع الأمراض المختلفة.

تحويل التنبؤات إلى إرشاد سهل للمزارع

للتجاوز عن الملصقات الخام، ربط المؤلفون تجميعتهم النصية بنموذج لغوي كبير مستضاف عبر الإنترنت. بعد تصنيف صورة الورقة، يُرسل اسم المرض المتوقع إلى النموذج اللغوي الذي يرد بشرح قصير للأعراض المحتملة واقتراحات عامة للإدارة، موجهة للمزارعين والعاملين بالارشاد الزراعي. تتيح واجهة ويب مبنية على منصة Hugging Face للمستخدمين رفع صورة ورقة، رؤية المرض المتوقع، وقراءة الإرشادات المولدة خلال ثوانٍ. يؤكد المؤلفون أن هذه التوصيات استشارية ويجب التحقق منها مع خبراء المحاصيل، لأن النماذج اللغوية قد تنتج أحياناً نصائح واثقة بشكل مفرط أو ناقصة. ومع ذلك، تجعل هذه الطبقة اللغوية النظام أكثر قرباً وسهولة للمستخدمين غير المتخصصين.

ما يعنيه هذا لأدوات الزراعة الذكية المستقبلية

بعبارات بسيطة، تُظهر الدراسة أن الجمع بين طريقتين «لرؤية» نفس الورقة—إحداهما ترى المشهد العام، والأخرى تلتقط التفاصيل—يمكن أن ينتج عن كاشف رقمي موثوق جداً لأمراض قصب السكر. تلتقط تجميعة ViT وSwin كلّاً من الأعراض الواسعة والدقيقة، بينما يساعد النموذج اللغوي الملحق في ترجمة التنبؤات الفنية إلى اقتراحات مفهومة للبشر. على الرغم من حاجة النماذج لمزيد من الاختبار في مناطق وإضاءات وأجهزة مختلفة، وأن مخرجات اللغة تتطلب تدقيقاً من الخبراء، يشير هذا العمل إلى أدوات عملية على الهواتف أو اللوحات يمكن أن تساعد المزارعين على رصد المشكلات مبكراً، تقليل التخمين، ودعم استخدام أكثر دقة للعلاجات في قصب السكر، وفي نهاية المطاف في محاصيل أخرى أيضاً.

الاستشهاد: Saritha, M., Rasane, K. An ensemble of vision and swin transformers with LLM-based explanations for sugarcane leaf disease diagnosis. Sci Rep 16, 10707 (2026). https://doi.org/10.1038/s41598-026-45453-w

الكلمات المفتاحية: كشف أمراض قصب السكر, نماذج رؤية محولة, الزراعة الدقيقة, تصوير أوراق النبات, دعم القرار بالذكاء الاصطناعي