Clear Sky Science · he

מערכת BlindSpot VisionGuide מונעת בינה מלאכותית על Raspberry Pi להגברת העצמאות של משתמשים בעלי ליקוי ראייה

· חזרה לאינדקס

לעזור לאנשים להסתמך פחות על הראייה

לעשרות מיליוני אנשים עם ראייה מוגבלת או חסרה לגמרי, מטלות יומיומיות שמובנות מאליהן לעיני רואות — לזהות פנים של חבר, להבין מה יש בחדר, או פשוט להתעדכן בחדשות — יכולות להיות מעייפות או בלתי אפשריות ללא עזרה. מאמר זה מציג את BlindSpot‑VisionGuide, מערכת קומפקטית המבוססת על מחשב Raspberry Pi בעלות נמוכה שמאזין לפקודות קוליות, מביט דרך מצלמה ומגיב בהנחיות מדוברות. באמצעות המרת מידע חזותי לקול בזמן אמת, המערכת שואפת לתת למשתמשים בעלי לקות ראייה יותר עצמאות בבית, בעבודה ובתנועה.

Figure 1
Figure 1.

ארון קטן אחד, שלוש יכולות מועילות

BlindSpot‑VisionGuide אוסף שלוש יכולות עיקריות למכשיר יחיד. ראשית, היא יכולה לזהות פנים מוכרות, כך שהמשתמש יוכל לדעת מי נכנס לחדר בלי להמתין להיכרות. שנית, היא יכולה לתאר במילים פשוטות מה המצלמה רואה, כמו אדם ישוב ליד שולחן או ציפור על מעקה. שלישית, היא יכולה למשוך כותרות ותמציות קצרות מעיתונים מקוונים ולקרוא אותן בקול. כל זה רץ על Raspberry Pi 5, מחשב בגודל כרטיס אשראי שנפוץ בפרויקטים חובבניים, בצירוף מצלמה קטנה, מיקרופון ורמקול או אוזניות.

לדבר במקום להקיש

במקום מסכים, כפתורים או מחוות מגע, המערכת מבוססת כמעט לחלוטין על קול. ה‑Raspberry Pi מאזין באופן רציף לפקודות קוליות פשוטות כמו "הפעל את מודול הזיהוי פנים" או "הפעל את מודול העיתון". כאשר המשתמש מפעיל זיהוי פנים, המצלמה מצלמת וידאו חי, התוכנה מבודדת פנים, משווה אותן לגלריה קטנה שמאוחסנת על המכשיר, ולאחר מכן אומרת בקול את ההתאמה הקרובה ביותר. עבור תיאור סצנות המשתמש מקבל הפסקה קצרה להנחות את המצלמה; המערכת לוכדת תמונה ומעבירה אותה דרך מודל מתקדם הממירה תמונה לטקסט שיוצר משפט בעל צליל טבעי, שהופך לדיבור. עבור חדשות, המערכת פונה לשירות מקוון, מסננת מאמרים עדכניים — לפי מדינה, תאריך ואפשרויות נוספות — ולאחר מכן קוראת כל כותרת ותמצית בקול ברור ויציב.

כיצד החלקים החכמים עובדים יחד

מאחורי הקלעים, BlindSpot‑VisionGuide נשענת על כלים מודרניים של בינה מלאכותית אך משתמשת בהם באופן מעשי וממוקד הנדסית. בזיהוי פנים, כל פנים מומרת ל"טביעת אצבע" נומרית קומפקטית באמצעות רשת עמוקה ולאחר מכן משווה טביעה זו לדוגמאות מאוחסנות. במבחנים עם 20 מתנדבים ו‑300 תמונות, היא זיהתה נכונה כ‑94% מהמקרים ובדרך כלל הגבתה בפחות מרבע שנייה לכל פנים. עבור תיאורי תמונה היא משתמשת במודל חזק בשם BLIP, המשלב מודול חזוני ומודול שפה. זה מייצר תיאורים עשירים, אך על ה‑Raspberry Pi הקטן נדרש כ‑4.5 שניות כדי לבטא כיתוב — מהיר מספיק להבנת סצנה סטטית, אך עדיין לא מתאים להחלטות של דולר‑שבר כמו חציית רחוב סואן. מודול העיתונות מסתמך על ממשקי תכנות רשת במקום גירוד רשת שביר, מה שמאפשר גישה מהימנה לחדשות עדכניות ומגביל את כמות המידע האישי שנשלח ברשת.

Figure 2
Figure 2.

איזון בין מהירות, צריכת חשמל ופרטיות

אתגר מרכזי הוא לכנס את שלוש היכולות למחשב זעיר ודל‑צריכה מבלי להסתמך על שרתי ענן רחוקים. המחברים מתייחסים לזה כבעיה של הנדסת מערכות ולא כמירוץ לרשתות עצביות גדולות יותר. פועל רק מודול אחד בכל פעם, כשהמצלמה, המיקרופון והמנוע הדובר משותפים כדי לשמור על שימוש בזיכרון ובצריכת סוללה תחת שליטה. זיהוי פנים ותיאור סצנות פועלים באופן מלא אופליין ברגע שהמודלים מאוחסנים על המכשיר, מה שעוזר להגן על פרטיות המשתמש. השימוש האינטרנטי הקבוע היחיד הוא למשיכת חדשות טריות, ואף שם המערכת יכולה לשמור במטמון מאמרים כך שניתן יהיה להקריאם מאוחר יותר ללא חיבור. ניסויי משתמשים עם 15 משתתפים בעלי לקות ראייה דירגו את השימושיות הכוללת כ"מצוינת" בשאלון סטנדרטי, עם שיעורי הצלחה במשימות גבוהים ועומס קוגניטיבי יחסית נמוך.

מה משמעות הדבר בחיי היומיום

במילים פשוטות, BlindSpot‑VisionGuide מראה שמחשב זול בגודל כיס יכול להציע חבילת "עיניים ואוזניים" שימושית למי שאינו יכול להסתמך על הראייה. המערכת אינה ממציאה אלגוריתמי למידה חדשים; במקום זאת היא מוכיחה שכלי זיהוי פנים, שפה ודיבור קיימים יכולים להיות משולבים בקפידה לפעולה מקומית, להגיב במהירות מספקת לרבים מהמצבים היומיומיים וכבדו על פרטיות המשתמש. המערכת עדיין אינה מתאימה לניווט מהיר ובטיחותי באופן קריטי, והיא תלויה באינטרנט עבור חדשות חיות ובדיבור באנגלית בלבד. אך ככל שמאיצי חומרה, מודלים מהירים יותר וקולות רב‑לשוניים יהפכו נפוצים יותר, קופסה משולבת המופעלת בקול מסוג זה עשויה להפוך לחבר מעשי עבור משתמשים עם לקות ראייה, לסייע להם לזהות אנשים, להבין את סביבתם ולהישאר מעודכנים עם תלות מועטה יותר באחרים.

ציטוט: Sudha, M., Swaminathan, S., Suba, M. et al. AI-powered BlindSpot VisionGuide system on raspberry Pi for enhancing independence of visually impaired users. Sci Rep 16, 11316 (2026). https://doi.org/10.1038/s41598-026-39724-9

מילות מפתח: טכנולוגיית סיוע, לקות ראייה, Raspberry Pi, ראייה ממוחשבת, המרת טקסט לדיבור