Clear Sky Science · he
קטלוג דיוק-גבוה של אירועי התנקזות ורעידות קרקע בסין המבוסס על כריית טקסט חדשותי עם מודל שפה גדול
מדוע מפת המפולות הזו חשובה
מפולות קרקע הורגות אלפי אנשים הורסות בתים, דרכים ושדות מדי שנה, אך עובדות בסיסיות על מתי והיכן הן מתרחשות יכולות להיות מפתיעות וקשות להשגה. מחקר זה בונה קטלוג מפורט של יותר מאלף מפולות ברחבי סין היבשתית על-ידי לימוד מערכת מחשב לקרוא שנים של דיווחי חדשות. התוצאה היא מאגר נתונים ציבורי שיכול לסייע בשיפור מערכות התרעה, להנחות בנייה בטוחה יותר ולתמוך בתכנון חכם יותר להתמודדות עם אסונות.

מסיפורים מפוזרים לתמונה לאומית
עד כה לסין היו רק רשומות חלקיות של מפולות. עלונים רשמיים ספרו כמה אירועים התרחשה בכל שנה או בכל פרובינציה אך לעיתים נדירות כללו מיקומים או זמנים מדויקים. קטלוגים בינלאומיים התמקדו בעיקר באירועים הגדולים או הקטלניים ביותר ברחבי העולם ועוררו מקרים מקומיים בסינית. זה השאיר את החוקרים ללא תמונה ברורה ובקנה-מידה עדין של המפולות ברחבי המדינה, והקשה על הערכת המקומות המסוכנים ביותר או על הבנת שינוי הסיכון לאורך זמן.
לתת למחשבים לקרוא את החדשות
המחברים פנו לרשת החדשות China News Network, אתר חדשות לאומי מרכזי שמפרסם סיפורים מסביב לשעון מכל רחבי המדינה. הם איספו (scrape) יותר מ-33,000 מאמרים שהזכירו את המילה "מפולת" בין השנים 2008 עד 2024, ואז סיננו מאמרים שהשתמשו במונח כמטאפורה, למשל לגבי בחירות או קריסת שוק. לאחר מכן השתמשו במודל שפה גדול, סוג של בינה מלאכותית מתקדמת שאומנה על כמויות עצומות של טקסט, כדי לחלץ עובדות מפתח מכל דיווח אסון אמיתי. עבור כל אירוע המערכת ניסתה לזהות את זמן ההתרחשות, המקום, מה יזם אותו וכמה אנשים נהרגו, נפצעו או נעדרו.
ניקוי, בדיקה וסימון אירועים על המפה
פלט גולמי של בינה מלאכותית אינו מושלם, לכן הצוות הוסיף שכבות בדיקה נוספות. הם הסירו רשומות בלי מידע זמן או מקום ברור והוציאו דיווחים שציינו רק אזור רחב, כמו פרובינציה, ללא פירוט מועיל. הם גם טיפלו בבעיה נפוצה של מספר סיפורים המתארים את אותו אסון על-ידי השוואת קרבת האירועים בזמן ואת הדמיון בתיאורי המקומות, ואז מיזגו כפילויות סבירות. מומחים אנושיים עברו על כל הרשומות הנותרות ותיקנו שגיאות. כדי להפוך שמות מקומות כתובים לקואורדינטות מפה, המחברים השתמשו בשירות מיפוי מקוון ובכללים מותאמים לבחירת ההתאמה הטובה ביותר, ואחר כך שוב ביצעו בדיקות ידניות במקרים ספקניים.

מה הקטלוג החדש חושף
מאגר הנתונים הסופי כולל 1,582 מפולות עם מידע מדויק באופן יוצא דופן. בערך חצי מהאירועים מתוארכים לשעה המדויקת או אפילו לדקה, ומעל 80 אחוז ממוקמים בקנה-מידה של כפר או באתר ספציפי כמו חיתוך דרך או מרומי גבעה. רוב המפולות המתועדות הוזנבו על-ידי גשמי שיא, במיוחד בדרום סין, בעוד שאירועים הקשורים לרעידות אדמה מתרכזים בקרבת הקצה המזרחי של רמת הטיבט. בהשוואה לשני מאגרי מפולות גלובליים נפוצים, קטלוג זה מכיל בערך שתי וחצי פעמים יותר אירועים בסין באותן השנים וממקם אותם במדויק יותר הן בזמן והן במרחב.
עד כמה אמינה קריאת חדשות על-ידי בינה מלאכותית
כדי לבדוק דיוק השוו הצוות את הרשומות שחולצו על-ידי ה-AI עם דוחות רשמיים על אסונות ידועים ועם סקרים גאולוגיים מקומיים מפורטים. הם מצאו שהמערכת טובה מאוד בחילוץ פרטים בסיסיים כמו מתי והיכן התרחשה מפולת ומה יזם אותה, אך פחות אמינה בספירת הרוגים, פצועים ונעדרים, שהם לעיתים משתנים כאשר המצב החירום מתפתח. באופן כללי, דיווחי החדשות עצמם התאימו במידה רבה למקורות ממשלתיים בזמן ובמיקום, מה שאישר שהם בסיס מהימן לבניית קטלוג כזה.
מה זה אומר לבטיחות בעתיד
עבור לא-מומחים, המסר המרכזי הוא שמחשבים כעת יכולים לסנן שנים של סיקור חדשותי כדי ליצור מפות ברורות ומפורטות של מקומות שבהם מדרונות מסוכנים קרסו. קטלוג המפולות הסיני הזה אינו רשומה של כל אירוע אפשרי, במיוחד הקטנים שעזבו מעט עקבות בתקשורת, ומספרי ההרוגים יש ליטול בזהירות. עם זאת, דיוקי הזמן והמיקום שלו הופכים אותו לכלי חזק למדענים הבודקים מודלי התרעה, למתכננים שמחליטים היכן לבנות דרכים ויישובים, ולרשויות המתכוננות לסערות ורעידות אדמה עתידיות.
ציטוט: Zhao, B., Zhang, L., Liu, Z. et al. A high-precision catalogue of landslide events in China based on news text mining with large language model. Sci Data 13, 722 (2026). https://doi.org/10.1038/s41597-026-07066-w
מילות מפתח: קטלוג מפולות, סיכונים בסין, כריית טקסט חדשותי, מודל שפה גדול, נתוני סיכוני אסון