Clear Sky Science · fr
Un départ bleu : un jeu de données à grande échelle de réseaux sociaux par paires et d’ordre supérieur
Pourquoi cela compte pour la vie en ligne quotidienne
Les réseaux sociaux ne se résument pas à un enchevêtrement d’amitiés individuelles et d’abonnements ; ils comprennent aussi des groupes, des ensembles et des foules qui façonnent ce que nous voyons et la manière dont les idées se propagent. Cet article présente un nouveau jeu de données massif issu de la plateforme Bluesky qui capture à la fois les liens « suivre » un‑à‑un et des structures de groupe plus riches appelées packs de démarrage. En rendant ce type d’information accessible, les auteurs donnent aux chercheurs une perspective sans précédent sur la manière dont les communautés en ligne se forment, croissent et réagissent à des événements du monde réel — des changements de politique sur des plateformes concurrentes aux tournants politiques.

Des abonnements aux groupes
Les études traditionnelles des réseaux sociaux traitent les relations comme des paires : une personne suit une autre, un compte répond à un autre. Mais une grande partie de nos expériences en ligne réelles s’organise autour de groupes — des listes de personnes à suivre, des collections de comptes recommandés ou des ensembles de contenus sélectionnés. Les auteurs se concentrent sur les « starter packs » de Bluesky, des collections créées par les utilisateurs d’un ensemble de comptes et de flux qui aident les nouveaux venus à constituer rapidement leur fil d’actualité. Contrairement aux simples liens de suivi, chaque pack de démarrage peut inclure des dizaines voire des centaines de comptes à la fois, ce qui en fait un moyen naturel d’étudier le comportement au niveau du groupe plutôt que les seules relations individuelles.
Construire une carte d’une nouvelle plateforme
Pour rassembler le jeu de données, l’équipe a exploité l’infrastructure technique ouverte de Bluesky. Chaque compte possède un identifiant pérenne stocké dans un annuaire public, et l’activité des utilisateurs est conservée sur des serveurs de données personnels consultables via une API ouverte. Les auteurs ont parcouru systématiquement cette infrastructure : d’abord en exportant tous les identifiants connus et leurs dates de création, puis en demandant à chaque serveur de données personnel la liste des comptes qu’il héberge, et enfin en téléchargeant l’historique d’activité complet de chaque utilisateur accessible. À partir de ces journaux bruts, ils ont extrait deux ingrédients principaux : qui suit qui, et quels comptes apparaissent ensemble dans les packs de démarrage.
Protéger les utilisateurs tout en préservant la structure
Parce que ce travail dévoile la forme des connexions sociales de millions de personnes, les auteurs ont pris des mesures pour réduire le risque d’identification des individus. Plutôt que de publier les identifiants originaux des comptes, ils ont remplacé chaque utilisateur et chaque pack de démarrage par des codes entiers anonymes. Ils ont aussi supprimé les textes descriptifs comme les noms des packs et arrondi toutes les horodatations au jour le plus proche. Même avec ces précautions, l’armature fondamentale du réseau est préservée : le même code anonyme apparaît de façon cohérente dans la liste de comptes, le réseau de suivis et les données des packs, ce qui permet aux chercheurs d’étudier la structure et la dynamique sans voir directement qui est chaque personne.

Ce que les données révèlent sur Bluesky
La capture obtenue est énorme : environ 39,7 millions de comptes, 2,4 milliards de relations de suivi et 365 842 packs de démarrage impliquant environ 2 millions d’utilisateurs et de fils uniques. La plupart des utilisateurs ne créent jamais de pack de démarrage, mais ceux qui en créent le font en général une seule fois, et la taille de ces packs se concentre autour des choix de conception de Bluesky — tailles minimales et maximales autorisées, ainsi qu’une fonctionnalité automatique qui préremplit un pack avec environ cinquante comptes. Les auteurs montrent que presque tous les utilisateurs sont reliés entre eux dans une immense toile de suivis, tandis que le réseau des packs de démarrage présente un noyau énorme et chevauchant où de nombreux packs partagent les mêmes comptes. Les pics d’activité, tant pour la création de comptes que pour les suivis, s’alignent clairement sur des événements clés, comme des changements sur la plateforme concurrente X/Twitter ou des dates politiques majeures, ce qui suggère que les mouvements et connexions des personnes réagissent à des actualités et à des changements de politique plus larges.
Pourquoi les groupes apportent une perspective nouvelle
Une des conclusions majeures de l’article est que les comptes « les plus importants » diffèrent selon qu’on mesure l’importance par les suivis ou par l’appartenance aux packs de démarrage. Un compte présent dans un grand nombre de packs n’est pas nécessairement celui qui a le plus d’abonnés, et inversement. Des comparaisons statistiques montrent un accord seulement modéré entre les deux classements, ce qui signifie que les vues basées sur les groupes et celles basées sur les paires offrent des éclairages complémentaires. Cette double perspective permet aux chercheurs de poser des questions auparavant hors de portée, par exemple comment des groupes sélectionnés aident les nouveaux venus à s’intégrer sur une plateforme, comment des groupes qui se chevauchent façonnent les flux d’information, ou comment les communautés en ligne se réorganisent en période de crise.
Ce que ce travail implique pour l’avenir
Pour les non‑spécialistes, le message central est que la vie sociale en ligne ne se comprend pas pleinement en ne comptant que les abonnés. Le jeu de données « A Blue Start » montre comment des structures de groupe comme les packs de démarrage contribuent à tisser une nouvelle plateforme, et comment elles réagissent à de grands événements extérieurs. En rendant disponible cette carte gigantesque et soigneusement anonymisée de Bluesky, les auteurs fournissent une base pour des recherches futures sur tout, de la désinformation et du débat politique aux algorithmes de recommandation et aux places publiques numériques. En résumé, la conclusion de l’article est que capturer à la fois les liens individuels et les regroupements est essentiel si l’on veut comprendre — et finalement orienter — la santé de nos mondes sociaux en ligne.
Citation: Smith, A.H., Amburg, I., Kumar, S. et al. A Blue Start: A large-scale pairwise and higher-order social network dataset. Sci Data 13, 585 (2026). https://doi.org/10.1038/s41597-026-06920-1
Mots-clés: Réseau social Bluesky, packs de démarrage, réseaux d’ordre supérieur, communautés en ligne, jeux de données de médias sociaux