Clear Sky Science · ru
Использование моделей тематического анализа для изучения психологических измерений в данных социальных сетей
Почему важны наши слова в сети
Каждый день миллионы людей делятся своими чувствами в социальных сетях, часто более открыто, чем в личном общении. В этом море обыденных комментариев скрыты ценные подсказки о психическом здоровье, включая признаки депрессии или склонностей к самоповреждению. В этом исследовании поставлен простой, но знаковый вопрос: могут ли современные методы искусственного интеллекта отфильтровать шум онлайн-бесед, найти содержательные темы и помочь специалистам лучше понять психологические риски — без чтения каждого поста по отдельности?

Превращая хаос в темы
Исследователи сосредоточились на большой коллекции постов Reddit из инициативы eRisk, которая включает людей, заявивших о диагнозе депрессии, и контрольную группу без известных диагнозов. Их цель не заключалась в диагностике отдельных людей, а в проверке того, может ли тематический анализ — методы, группирующие тексты по общим темам — выявить паттерны, связанные с психическим здоровьем. Язык в соцсетях неряшлив: много сленга, опечаток и резких смен тем, поэтому это реалистичная, но весьма сложная проверка для таких методов.
Три подхода к выяснению, о чём говорят люди
В исследовании сравнили три разные семейства тематических моделей. Первая — Latent Dirichlet Allocation (LDA) — классический метод, который анализирует, как часто слова встречаются вместе в документах. Вторая, BERTopic, использует мощные современные языковые модели, чтобы превратить каждый пост в богатое числовое представление, затем группирует похожие посты и извлекает ключевые слова для каждой группы. Третья, TopClus, также опирается на нейросети, сочетая механизмы внимания и кластеризацию в общем математическом пространстве. Все три запустили со стандартными настройками, сгенерировав по 50 тем каждая, имитируя то, как многие исследователи используют их «из коробки».
Опрос людей, а не только формул
Чтобы оценить, какие темы действительно имеют смысл, команда не полагалась только на автоматические метрики. Шесть обученных аннотаторов изучили 150 тем, каждая из которых была представлена списком ведущих слов и несколькими центральными постами. Для каждой темы они оценивали, насколько согласованным был список слов, насколько согласованными были примерные посты и соответствовали ли слова и посты друг другу. По возможности они также пытались дать теме короткое интуитивное название. Такой ориентированный на человека подход выявил важное наблюдение: числовые метрики «согласованности», популярные в исследованиях, часто расходились с человеческой оценкой, особенно применительно к неопрятному тексту в соцсетях.
Очевидный лидер и что он показал
По всем человеческим оценкам BERTopic явно давал наиболее понятные и конкретные темы. Аннотаторы гораздо чаще могли назвать его темы, чем у других моделей, и между ними наблюдалось устойчивое умеренное согласие. LDA, напротив, часто объединяла несвязанные слова и посты, которые рецензентам казались почти случайными. После отбора лучших тем исследователи проанализировали, о чём люди действительно писали. Некоторые темы, такие как «Проблемы с психическим здоровьем» и «Самоповреждение», были тесно связаны с пользователями с депрессией и содержали множество постов с выражением страдания. Другие были не так явно клиническими — например, «Путь к похудению», «Гендерная идентичность», «Сексуальные сны» и «Этикет при социальном употреблении алкоголя» — но оказались насыщены постами от депрессивных пользователей и признаками эмоциональной боли. Простейший анализ по времени показал, что активность по некоторым из этих чувствительных тем резко выросла во время пандемии COVID-19, что соотносится с более широкими сообщениями о ухудшении психического здоровья.

От онлайн-паттернов к помощи в реальном мире
Чтобы лучше понять серьёзность некоторых постов, авторы использовали отдельную языковую модель, чтобы приблизительно сопоставить содержание с пунктами известного опросника по депрессии (Beck Depression Inventory). Этот исследовательский шаг показал, что определённые темы, особенно связанные с проблемами психического здоровья, самоповреждением, образом тела и гендерной идентичностью, часто содержат язык, связанный со средними и тяжёлыми симптомами депрессии. Авторы подчёркивают, что такие автоматические интерпретации не являются клиническими диагнозами, но могут помочь выявить области, требующие срочного внимания экспертов.
Что это значит для психического здоровья и технологий
Проще говоря, исследование показывает, что современные продвинутые тематические модели, особенно BERTopic, способны превратить хаотичные беседы в соцсетях в понятные темы, соотносящиеся с реальными психологическими проблемами. Оно также демонстрирует риск слепого доверия автоматическим качественным оценкам; при работе с целью поддержки решений в области психического здоровья человеческая проверка остаётся необходимой. В будущем похожие инструменты могут помочь клиницистам, государственным органам и исследователям отслеживать широкие тренды, выявлять возникающие риски и разрабатывать лучшие профилактические меры — при этом окончательное суждение и уход остаются за людьми-профессионалами.
Цитирование: Couto, M., Parapar, J. & Losada, D.E. Exploiting topic analysis models to explore psychological dimensions in social media data. Sci Rep 16, 6047 (2026). https://doi.org/10.1038/s41598-026-36339-y
Ключевые слова: социальные сети и депрессия, тематическое моделирование, паттерны психического здоровья, сигналы самоповреждений онлайн, языковые модели в психологии