Clear Sky Science · de

Ein blauer Anfang: Ein groß angelegtes Datenset zu paarweisen und höherordnenden sozialen Netzwerken

· Zurück zur Übersicht

Warum das für den Alltag im Netz wichtig ist

Soziale Medien sind nicht nur ein Geflecht aus Einzelbeziehungen und Follow‑Verbindungen; sie bestehen ebenso aus Gruppen, Bündeln und Massen, die beeinflussen, was wir sehen und wie Ideen sich verbreiten. Dieses Paper stellt ein großes neues Datenset von der Plattform Bluesky vor, das sowohl eindimensionale „Follow“-Verbindungen als auch reichhaltigere Gruppenstrukturen erfasst, die als Starter‑Packs bezeichnet werden. Indem die Autorinnen und Autoren diese Art von Informationen öffnen, ermöglichen sie Forschenden einen bisher ungekannten Einblick darin, wie Online‑Gemeinschaften entstehen, wachsen und auf reale Ereignisse reagieren – von Richtlinienänderungen auf konkurrierenden Plattformen bis hin zu politischen Wendepunkten.

Figure 1
Figure 1.

Von Follows zu Gruppen

Traditionelle Studien zu sozialen Netzwerken behandeln Beziehungen meist als Paare: eine Person folgt einer anderen, ein Account antwortet einem anderen. Viele unserer realen Erfahrungen im Netz sind jedoch gruppenorientiert organisiert – etwa Listen von Personen zum Folgen, Sammlungen empfohlener Accounts oder kuratierte Bündel von Inhalten. Die Autorinnen und Autoren konzentrieren sich auf Blueskys „Starter‑Packs“, von Nutzern erstellte Sammlungen von Accounts und Feeds, die Neulingen helfen, schnell ihre Timelines zu füllen. Anders als einfache Follow‑Links können Starter‑Packs Dutzende oder sogar Hunderte von Accounts gleichzeitig enthalten und eignen sich damit besonders gut, um gruppenbezogenes Verhalten statt nur individuelle Freundschaften zu untersuchen.

Eine Karte einer neuen Plattform erstellen

Um das Datenset zusammenzustellen, nutzte das Team Blueskys offene technische Infrastruktur. Jeder Account hat einen langfristigen Identifikator, der in einem öffentlichen Verzeichnis gespeichert ist, und Nutzeraktivität liegt auf persönlichen Datenspeichern, die über eine offene API abgefragt werden können. Die Autorinnen und Autoren durchliefen diese Infrastruktur systematisch: zunächst exportierten sie alle bekannten Identifikatoren und deren Erstellungszeiten, fragten dann jeden persönlichen Datenspeicher nach der Liste der gehosteten Accounts ab und luden schließlich die vollständigen Aktivitätsprotokolle jedes erreichbaren Nutzers herunter. Aus diesen Rohdaten extrahierten sie zwei Kernbestandteile: wer wem folgt und welche Accounts gemeinsam in Starter‑Packs auftauchen.

Schutz der Nutzer bei Erhalt der Struktur

Da diese Arbeit die Form der sozialen Verbindungen von Millionen Menschen offenlegt, ergriffen die Autorinnen und Autoren Maßnahmen, um das Risiko der Identifizierung Einzelner zu verringern. Statt die ursprünglichen Account‑Identifikatoren zu veröffentlichen, ersetzten sie jeden Nutzer und jedes Starter‑Pack durch anonyme Ganzzahlcodes. Sie entfernten außerdem beschreibende Texte wie Starter‑Pack‑Namen und rundeten alle Zeitstempel auf den nächsten Tag. Trotz dieser Schutzmaßnahmen bleibt die grundlegende Vernetzung erhalten: derselbe anonyme Code erscheint konsistent in der Account‑Liste, dem Follow‑Netzwerk und den Starter‑Pack‑Daten, sodass Forschende Struktur und Dynamik untersuchen können, ohne direkt zu sehen, wer eine bestimmte Person ist.

Figure 2
Figure 2.

Was die Daten über Bluesky zeigen

Der resultierende Schnappschuss ist enorm: ungefähr 39,7 Millionen Accounts, 2,4 Milliarden Follow‑Beziehungen und 365.842 Starter‑Packs, die etwa 2 Millionen eindeutige Nutzer und Feeds betreffen. Die meisten Nutzer erstellen nie ein Starter‑Pack; diejenigen, die es tun, legen typischerweise nur eines an, und die Größen dieser Packs gruppieren sich um Blueskys Designentscheidungen – minimale und maximale erlaubte Größen sowie eine automatische Funktion, die ein Pack mit etwa fünfzig Accounts vorausfüllt. Die Autorinnen und Autoren zeigen, dass fast alle Nutzer durch ein gigantisches Netz von Follows verbunden sind, während das Starter‑Pack‑Netzwerk einen großen überlappenden Kern hat, in dem viele Packs dieselben Accounts teilen. Aktivitätsspitzen bei der Account‑Erstellung und beim Folgen stimmen deutlich mit Schlüsselereignissen überein, etwa Änderungen auf der konkurrierenden X/Twitter‑Plattform oder wichtigen politischen Daten, was darauf hindeutet, dass Menschen sich als Reaktion auf größere Nachrichten‑ und Politikereignisse bewegen und vernetzen.

Warum Gruppen etwas Neues hinzufügen

Eines der zentralen Ergebnisse des Papers ist, dass die „wichtigsten“ Accounts unterschiedlich aussehen, je nachdem, ob Wichtigkeit über Follower oder über Starter‑Pack‑Mitgliedschaft gemessen wird. Ein Account, der in sehr vielen Starter‑Packs erscheint, ist nicht immer derselbe mit den meisten Followern, und umgekehrt. Statistische Vergleiche zeigen nur mäßige Übereinstimmung zwischen den beiden Ranglisten, was bedeutet, dass gruppenbasierte und paarweise Perspektiven komplementäre Einsichten bieten. Diese doppelte Sichtweise erlaubt Forschenden, Fragen zu stellen, die zuvor schwer zugänglich waren, etwa wie kuratierte Gruppen Neulingen beim Einstieg helfen, wie überlappende Gruppen Informationsflüsse formen oder wie sich Online‑Gemeinschaften in Krisenmomenten neu organisieren.

Welche Bedeutung diese Arbeit für die Zukunft hat

Für Nicht‑Spezialisten lautet die Kernbotschaft: Das Online‑soziale Leben lässt sich nicht vollständig erfassen, wenn man nur die Anzahl der Follower zählt. Das Datenset „A Blue Start“ zeigt, wie Gruppenstrukturen wie Starter‑Packs eine neue Plattform zusammenhalten und wie sie auf große externe Ereignisse reagieren. Indem die Autorinnen und Autoren diese riesige, sorgfältig anonymisierte Karte von Bluesky öffentlich zugänglich machen, legen sie eine Grundlage für zukünftige Forschung zu Themen von Desinformation und politischer Kommunikation bis hin zu Empfehlungsalgorithmen und digitalen öffentlichen Räumen. Kurz gesagt: Das Paper kommt zu dem Schluss, dass das Erfassen sowohl individueller Verbindungen als auch Gruppierungen essenziell ist, wenn wir die Gesundheit unserer Online‑Sozialwelten verstehen – und letztlich steuern – wollen.

Zitation: Smith, A.H., Amburg, I., Kumar, S. et al. A Blue Start: A large-scale pairwise and higher-order social network dataset. Sci Data 13, 585 (2026). https://doi.org/10.1038/s41597-026-06920-1

Schlüsselwörter: Bluesky soziales Netzwerk, Starter‑Packs, höherordnende Netzwerke, Online‑Gemeinschaften, Social‑Media‑Datensätze