Clear Sky Science · he
מאגר ה‑ECG של הרווארד‑אמורי
מדוע ספרייה ענקית של פעימות לב חשובה
המנועים החשמליים של הלב, המתועדים בבדיקה פשוטה הנקראת אלקטרוקרדיוגרם (ECG), הם אחד המדדים השכיחים ברפואה המודרנית. ועד כה לחוקרים היו מעט מאוד אוספים גדולים ומאורגנים היטב של ECG לחקור. מאגר ה‑ECG של הרווארד‑אמורי (HEEDB) משנה זאת: הוא מאחד מיליוני הקלטות ECG מתוך טיפול שגרתי בבית חולים, יחד עם מידע על מי היו המטופלים ומה היסטוריית הטיפול שלהם. "ספריית פעימות הלב" העצומה הזו עשויה לעזור למדענים לזהות סמני אזהרה מוקדמים לבעיות לב ולפתח כלי מחשב צודקים ומדויקים יותר לרופאים.

אוסף עצום של אותות לב
HEEDB הוא כיום אוסף בקוד פתוח הגדול ביותר של ECG סטנדרטי ב‑12‑עופרת, אותו סוג המשמש בקליניקות ובמיון ברחבי העולם. הוא מכיל יותר מ‑11.6 מיליון הקלטות של עשר שניות, מיותר מ‑2.1 מיליון מטופלים שטופלו ב‑Massachusetts General Hospital בבוסטון וב‑Emory University Hospital באטלנטה בין 1980 ל‑2022. רבים מהאנשים בבסיס הנתונים עברו מספר בדיקות ECG לאורך חודשים או שנים, מה שמספק ציר זמן של איך דפוסי הלב שלהם השתנו כשהם הזדקנו, חלו או החלימו. על‑ידי פתיחת המשאב לחוקרים מוסמכים, הצוות שואף לאפשר מחקרים בהיקף אוכלוסייה על קצבי הלב, הפרעותיהם וכיצד דפוסים אלה קשורים לתוצאי בריאות כגון אי‑ספיקת לב, אריתמיות מסוכנות ומות פתאומי.
מי המטופלים וכיצד מוגן המידע שלהם
המאגר אינו שומר רק גליונים; הוא כולל גם מידע רקע עשיר על כל אדם. עבור רוב המטופלים החוקרים יכולים לראות גיל, מין וגזע, בעוד שבבית חולים אחד ניתנים גם פרטים כמו רמת השכלה, שפה ומצב וטרני. תאריכים כגון יום־הולדת, מועד הקלטת ה‑ECG, ביקור בית חולים אחרון ומועד המוות זמינים בצורה שעברה עיוות זהיר: התאריכים של כל מטופל מוזזים באופן אקראי עד שנה אחת, וכל מי שגילו מעל 89 מקובץ לקבוצת גיל אחת. מזהים ישירים הוסרו, ולכל אדם הוקצה קוד חדש שהוא עקבי בפרויקטים קשורים. צעדים אלה עומדים בכללי פרטיות מקובלים ואושרו על ידי ועדות אתיקה, וגישת הנתונים נשלטת בהסכם שימוש שאוסר ניסיונות "לזהות מחדש" אנשים.
שכבות משמעות רפואית מעל כל פעימת לב
כל ECG ב‑HEEDB מקושר למספר שכבות של פירוש. ראשית, קיימות אמירות שנוצרו על‑ידי מחשב מתוכנות מסחריות לניתוח ECG הנפוצות, שמסמנות סוגי קצב ובעיות אפשריות כגון התקפי לב בעבר או דפוסים חשמליים חריגים. תוויות אלו הופקו מחדש לכל ההקלטות באמצעות הגרסה העדכנית של התוכנה כדי שמחקרים יוכלו להשוות בין מטופלים על פני עשורים באופן עקבי. שנית, עבור רבות מההקלטות המאגר כולל גם את מה שרופאים כתבו כאשר סקירת הגלים בוצעה ליד המיטה. מאחר שההערות הללו הוקלדו כטקסט חופשי, הצוות השתמש בשיטות עיבוד שפה טבעית כדי לתרגם אותן חזרה לקודים ממוחשבים סטנדרטיים. לאחר מכן הם מדדו עד כמה הפרשנות האוטומטית והאנושית הסכימו, ומצאו בדרך כלל חפיפה חזקה אך גם הדגימו מקומות שבהם המחשב והרופא ראו דברים באופן שונה.
חיבור דפוסי לב לאבחנות ולהיסטוריה מחלתית
מעבר למה הנראה על כל רצועת ECG, המאגר מקשר כל מטופל לקודי אבחון הנלקחים מרשומות הבריאות האלקטרוניות שלו. קודים אלה, מתוך מערכות בינלאומיות ותיקות (ICD‑9 ו‑ICD‑10), מסכמים מצבים הנעים מלחץ דם גבוה וסוכרת עד הפרעות קצב ונגעי ריאה, יחד עם התאריכים שבהם האבחנות ניתנו. יש מטופלים שיש להם רק מספר קודים בעוד שאחרים מצוינים במאות, מה שמשקף היסטוריות רפואיות מורכבות. הקודים השכיחים ביותר בשני בתי החולים קשורים ללחץ דם חיוני, מה שמדגיש עד כמה יתר לחץ דם נפוץ בקרב מקבלי בדיקות ECG. בחשיבותה, הכותבים מדגישים כי תוויות המופקות מ‑ECG וקודי האבחון משקפות היבטים שונים של הטיפול ועשויות להתייחס לביקורים שונים, ולכן על החוקרים להחליט בזהירות כיצד לשלב ביניהן.

חוזקות, מגבלות וכיצד חוקרים יכולים להשתמש במאגר
מכיוון שה‑ECG נאספו במהלך טיפול קליני שגרתי באמצעות אותה חברה של ציוד, הנתונים עקביים אך גם מכילים ליקויים של העולם האמיתי כגון רעש ואובדן עופרות. המחברים מספקים דגלי איכות בסיסיים והערות טכניות אך במכוון משאירים ניקוי ובחירה מתקדמים למשתמשי קצה, שלכל אחד מהם עשויים להיות מטרות מחקר שונות. הם גם מזהירים שכל ההקלטות באות משני מרכזים אקדמיים גדולים בארה"ב המשתמשים במערכת של ספק אחד, ולכן הממצאים עשויים שלא להכליל במלואם לאזורים או למכשירים אחרים. עם זאת, גודל מערך הנתונים, הגיוון של המטופלים וזמינותן של שתי הפרשנויות — אוטומטית ורופאית — הופכים את HEEDB למערכת ניסוי עוצמתית עבור אלגוריתמים חדשים ולחקר הטיה בין קבוצות דמוגרפיות.
מה משמעות הדבר לטיפול בעתיד
בסיכומו של דבר, מאגר ה‑ECG של הרווארד‑אמורי הופך מיליוני בדיקות שגרתיות של הלב למשאב מדעי משותף. עבור הקורא שלא מומחה, ערכו טמון באפשרות שהדפוסים הנסתרים בהקלטות אלה יחשפו מי בסיכון לבעיות לב חמורות הרבה לפני הופעת תסמינים, והאם הכלים הנוכחיים פועלים באותה מידה עבור אנשים בגילאים, במינים וברקעים שונים. על‑ידי הפיכת נתונים מזוהים באופן מדוד לזמינים באופן רחב, הפרויקט מניח את היסודות לקרדיולוגיה מדויקת יותר ומכלים מסייעי החלטה ממוחשבים שהם גם חזקים וגם הוגנים.
ציטוט: Koscova, Z., Li, Q., Robichaux, C. et al. The Harvard-Emory ECG Database. Sci Data 13, 516 (2026). https://doi.org/10.1038/s41597-026-06861-9
מילות מפתח: אלקטרוקרדיוגרם, מחלות כלי־דם ולב, מאגרי נתונים רפואיים, למידת מכונה ברפואה, קצב לב