Clear Sky Science · he
פתיחה כחולה: מאגר נתונים רחב היקף של רשת חברתית בזוגיות וסדרי-גודל גבוהים
מדוע זה חשוב לחיים המקוונים היומיומיים
רשתות חברתיות אינן רק ערבוב של חברות והעקבות בודדות; הן גם מורכבות מקבוצות, חבילות וצברים שמשפיעים על מה שאנחנו רואים וכיצד רעיונות מתפשטים. מאמר זה מציג מאגר נתונים עצום חדש מפלטפורמת Bluesky שתופס הן קשרי "עקיבה" אחד‑על‑אחד והן מבנים קבוצתיים עשירים יותר הנקראים חבילות התחלה. בכך שהמחברים חושפים סוג כזה של מידע הם מעניקים לחוקרים הצצה חסרת תקדים לאופן שבו קהילות מקוונות נוצרות, גדלות ומגיבות לאירועים בעולם האמיתי — משינויים במדיניות בפלטפורמות יריבות ועד נקודות מפנה פוליטיות.

מעקיבות לקבוצות
מחקרים מסורתיים של רשתות חברתיות מתייחסים ליחסים כאל זוגות: אדם אחד עוקב אחרי אחר, חשבון אחד משיב לאחר. אך רבים מהחוויות המקוונות שלנו מתארגנות סביב קבוצות — רשימות אנשים לעקוב אחריהם, אוספי חשבונות מומלצים או חבילות תוכן שנבחרו בקפידה. המחברים מתמקדים ב"חבילות התחלה" של Bluesky, אוספים שנוצרו על ידי משתמשים של חשבונות ופידים שעוזרים לחדשים לבנות במהירות את ציר הזמן שלהם. בניגוד לקישורי עקיבה פשוטים, כל חבילת התחלה יכולה לכלול עשרות או אפילו מאות חשבונות בבת אחת, מה שהופך אותה לאמצעי טבעי לחקור התנהגות ברמת הקבוצה ולא רק חברות בודדות.
בניית מפה של פלטפורמה חדשה
כדי להרכיב את מאגר הנתונים, הצוות נצמד לתשתית הטכנית הפתוחה של Bluesky. לכל חשבון יש מזהה ארוך־טווח המאוחסן במדריך ציבורי, ופעילות המשתמשים נשמרת על שרתי נתונים אישיים שניתן לשאול דרך API פתוח. המחברים עברו בצורה שיטתית דרך התשתית הזו: קודם יצוא כל המזהים הידועים וזמני יצירתם, אחר כך בקשה מכל שרת נתונים אישי לרשימת החשבונות שהוא מארח, ולבסוף הורדת רישום הפעילות המלא של כל משתמש שניתן להגיע אליו. מתוך היומנים הגולמיים הללו הם חילצו שני מרכיבים מרכזיים: מי עוקב אחרי מי, ואילו חשבונות מופיעים יחד בחבילות התחלה.
הגנה על משתמשים תוך שמירה על המבנה
מכיוון שעבודה זו חושפת את צורת הקשרים החברתיים של מיליוני אנשים, המחברים נקזו צעדים להפחתת הסיכון לזיהוי פרטים. במקום לפרסם את מזהי החשבונות המקוריים, הם החליפו כל משתמש וכל חבילת התחלה בקודי מספר שלמים אנונימיים. הם גם הסירו טקסט תיאורי כגון שמות חבילות ההתחלה ועיגלו את כל חותמות הזמן ליום הקרוב. אפילו עם אמצעי זהירות אלה, החיווט הבסיסי של הרשת נשמר: אותו קוד אנונימי מופיע בהתמדה ברשימת החשבונות, ברשת העקיבה ובנתוני חבילות ההתחלה, מה שמאפשר לחוקרים לחקור מבנה ודינמיקה מבלי לראות ישירות מי כל אדם.

מה הנתונים חושפים לגבי Bluesky
צילום המצב שנוצר עצום: בערך 39.7 מיליון חשבונות, 2.4 מיליארד יחסי עקיבה, ו‑365,842 חבילות התחלה הכוללות כ‑2 מיליון משתמשים ופידים ייחודיים. רוב המשתמשים אף פעם לא יוצרים חבילת התחלה, אך אלה שכן בדרך כלל יוצרים חבילה אחת בלבד, וגודלי החבילות מתרכזים סביב החלטות העיצוב של Bluesky — גדלים מינימליים ומקסימליים מותרים, ותכונה אוטומטית שממלאת חבילה בכ־חמישים חשבונות. המחברים מראים שכמעט כל המשתמשים קשורים זה לזה ברשת ענקית של עקיבות, בעוד שרשת חבילות ההתחלה כוללת ליבה חופפת גדולה שבה חבילות רבות חולקות את אותם חשבונות. זינוקים בפעילות הן ביצירת חשבונות והן בעקיבות מתיישרים בבירור עם אירועים מרכזיים, כגון שינויים בפלטפורמת היריבה X/Twitter או מועדים פוליטיים חשובים, ומצביעים על כך שאנשים נעים ומתחברים בתגובה לחדשות ולשינויים במדיניות.
מדוע קבוצות מוסיפות משהו חדש
ממצא מרכזי במאמר הוא שהחשבון "החשוב ביותר" נראה שונה תלוי אם מודדים חשיבות לפי עקיבות או לפי חברות בחבילות התחלה. חשבון שמופיע במספר עצום של חבילות התחלה אינו תמיד זה שיש לו את מספר העוקבים הרב ביותר, ולהפך. השוואות סטטיסטיות מאשרות רק הסכמה מתונה בין שתי הדירוגים, כלומר שהמבט המבוסס על קבוצות והבט המבוסס על זוגות מספקים תובנות משלימות. פרספקטיבה כפולה זו מאפשרת לחוקרים לשאול שאלות שהיו מחוץ להישג יד קודם לכן, כגון כיצד קבוצות שנבחרו עוזרות לחדשים להשתלב בפלטפורמה, כיצד קבוצות חופפות מעצבות זרימות מידע, או כיצד קהילות מקוונות מתארגנות מחדש ברגעי משבר.
מה משמעות עבודה זו להמשך
לא-מומחים, המסר המרכזי הוא שחיים חברתיים מקוונים לא ניתנים להבנה מלאה רק על ידי ספירת עוקבים. מאגר הנתונים "פתיחה כחולה" מראה כיצד מבני קבוצות כמו חבילות התחלה תופרות יחד פלטפורמה חדשה, וכיצד הן מגיבות לאירועים חיצוניים גדולים. על‑ידי פרסום מפה אנונימית בקפידה זו של Bluesky, המחברים מספקים בסיס למחקר עתידי על כל דבר, מתחום המידע השגוי והשיח הפוליטי ועד אלגוריתמי המלצה וכיכרות ציבוריות דיגיטליות. בקיצור, המסקנה של המאמר היא כי לכידת קשרים אישיים וקיבוציים היא חיונית אם אנו רוצים להבין — ובסופו של דבר לכוון — את בריאות עולמותינו החברתיים המקוונים.
ציטוט: Smith, A.H., Amburg, I., Kumar, S. et al. A Blue Start: A large-scale pairwise and higher-order social network dataset. Sci Data 13, 585 (2026). https://doi.org/10.1038/s41597-026-06920-1
מילות מפתח: רשת חברתית Bluesky, חבילות התחלה, רשתות סדר-גבוה, קהילות מקוונות, מאגרי נתונים של רשתות חברתיות