Clear Sky Science · ru
Голубой старт: крупномасштабный набор данных парных и высших социальных сетей
Почему это важно для повседневной онлайн‑жизни
Социальные медиа — это не просто набор индивидуальных дружб и подписок; они также состоят из групп, наборов и толп, которые формируют то, что мы видим, и как распространяются идеи. В этой статье представлен огромный новый набор данных с платформы Bluesky, который фиксирует как одно‑к‑одному «подписки», так и более сложные групповые структуры, называемые стартовыми пакетами. Публикуя такие данные, авторы дают исследователям беспрецедентное представление о том, как формируются, растут и реагируют онлайн‑сообщества на события в реальном мире — от изменений политики на конкурирующих платформах до политических переломных моментов.

От подписок к группам
Традиционные исследования социальных сетей рассматривают отношения как пары: один человек подписан на другого, один аккаунт отвечает другому. Но многие наши реальные онлайн‑опыты организованы вокруг групп — списков людей для подписки, коллекций рекомендованных аккаунтов или кураторских наборов контента. Авторы сосредоточились на «стартовых пакетах» Bluesky, пользовательских коллекциях аккаунтов и лент, которые помогают новичкам быстро наполнить свои таймлайны. В отличие от простых ссылок «подписка», каждый стартовый пакет может включать десятки или сотни аккаунтов одновременно, что делает их естественным объектом для изучения поведения на уровне групп, а не только индивидуальных связей.
Построение карты новой платформы
Чтобы собрать набор данных, команда использовала открытую техническую инфраструктуру Bluesky. У каждого аккаунта есть долговременный идентификатор, хранящийся в публичном каталоге, а активность пользователей размещается на персональных серверах данных, к которым можно обращаться через открытый API. Авторы систематически прошли через эту инфраструктуру: сначала экспортировали все известные идентификаторы и время их создания, затем запрашивали у каждого персонального сервера список размещённых на нём аккаунтов и, наконец, скачали полный журнал активности каждого доступного пользователя. Из этих сырых логов они извлекли две ключевые составляющие: кто на кого подписан и какие аккаунты встречаются вместе в стартовых пакетах.
Защита пользователей при сохранении структуры
Поскольку работа раскрывает структуру социальных связей миллионов людей, авторы предприняли шаги по снижению риска идентификации индивидуумов. Вместо публикации исходных идентификаторов аккаунтов они заменили каждого пользователя и каждый стартовый пакет на анонимные целочисленные коды. Они также удалили описательные тексты, такие как названия стартовых пакетов, и округлили все временные метки до ближайшего дня. Даже с этими мерами защиты базовая проводка сети сохраняется: один и тот же анонимный код последовательно появляется в списке аккаунтов, в сети подписок и в данных о стартовых пакетах, что позволяет исследователям изучать структуру и динамику без прямого доступа к тому, кем является каждый человек.

Что данные показывают о Bluesky
Получившийся снимок огромен: примерно 39,7 миллиона аккаунтов, 2,4 миллиарда отношений «подписка», и 365 842 стартовых пакета с участием около 2 миллионов уникальных пользователей и лент. Большинство пользователей никогда не создают стартовый пакет, но те, кто создаёт, обычно делают только один, а размеры этих пакетов группируются вокруг проектных решений Bluesky — минимального и максимального допустимого размера, а также автоматической функции, которая предварительно заполняет пакет примерно пятьюдесятью аккаунтами. Авторы показывают, что почти все пользователи связаны в гигантную паутину подписок, в то время как сеть стартовых пакетов имеет большой перекрывающийся ядро, где многие пакеты разделяют одни и те же аккаунты. Всплески активности как в создании аккаунтов, так и в подписках явно совпадают с ключевыми событиями, такими как изменения на конкурирующей платформе X/Twitter или важные политические даты, что указывает на то, что люди перемещаются и устанавливают связи под влиянием более широких новостей и политических сдвигов.
Почему группы добавляют новое измерение
Одно из ключевых результатов статьи заключается в том, что «наиболее важные» аккаунты выглядят по‑разному в зависимости от того, измеряете ли вы важность по числу подписчиков или по членству в стартовых пакетах. Аккаунт, который появляется в огромном числе стартовых пакетов, не всегда является тем, у кого больше всего подписчиков, и наоборот. Статистические сравнения показывают лишь умеренное согласие между этими двумя ранжированиями, что означает, что групповой и парный подходы дают дополнительные, взаимодополняющие инсайты. Эта двойственная перспектива позволяет исследователям задавать вопросы, которые ранее были недоступны, например, как кураторские группы помогают новичкам интегрироваться на платформе, как перекрывающиеся группы формируют потоки информации или как онлайн‑сообщества перестраиваются в моменты кризиса.
Что это означает в будущем
Для неспециалистов главный вывод в том, что онлайн‑социальную жизнь нельзя полноценно понять, только считая подписчиков. Набор данных «Голубой старт» показывает, как групповые структуры, такие как стартовые пакеты, помогают связать новую платформу воедино и как они реагируют на крупные внешние события. Сделав эту гигантскую, тщательно анонимизированную карту Bluesky публично доступной, авторы закладывают основу для будущих исследований всего — от дезинформации и политических дискурсов до алгоритмов рекомендаций и цифровых общественных площадей. Короче говоря, вывод работы таков: захват как индивидуальных связей, так и групповых объединений необходим, если мы хотим понять — и в конечном счёте управлять — здоровьем наших онлайн‑социальных миров.
Цитирование: Smith, A.H., Amburg, I., Kumar, S. et al. A Blue Start: A large-scale pairwise and higher-order social network dataset. Sci Data 13, 585 (2026). https://doi.org/10.1038/s41597-026-06920-1
Ключевые слова: Социальная сеть Bluesky, стартовые пакеты, высшие сети, онлайн‑сообщества, наборы данных социальных медиа