Clear Sky Science · ru

ChunkyBERT: новая методика многоклассового определения политической предвзятости в новостных СМИ

2026-04-01 · Назад к списку

Почему скрытые уклоны в новостях важны

Каждый день люди пролистывают политические заголовки, не замечая, как формулировки и выбор сюжетов могут незаметно направлять их взгляды. В этом исследовании представлен ChunkyBERT — компьютерная модель, предназначенная для выявления того, тяготеет ли длинная новостная статья влево, к центру или вправо, используя полный текст вместо нескольких выбранных вручную сигналов. Цель — помочь читателям, журналистам и наблюдателям яснее видеть предвзятость в современной цифровой медиа-среде.

Как политический уклон формирует то, что мы читаем

Новостные издания могут влиять на мнение не только тем, что они говорят, но и тем, что они опускают, как они преподносят события и какие эмоциональные формулировки используют. В эпоху онлайн-платформ это может усиливать разногласия, подпитывать эхо-комнаты и распространять вводящую в заблуждение информацию. Ранее используемые компьютерные инструменты пытались это измерить, считая позитивные или негативные слова или отслеживая частоту появления определённых терминов. Хотя такие методы полезны, им тяжело справляться с контекстом — например, с сарказмом или тонкой подачей — и зачастую требуется много ручной настройки экспертами.

От вручную подобранных подсказок к чтению полного текста

Недавние достижения в обработке языка позволяют моделям извлекать значение напрямую из сырого текста. Системы на основе нейронных сетей и трансформеров, такие как BERT, способны учитывать взаимное влияние слов в предложении и между абзацами. Многие предыдущие исследования использовали эти инструменты для обнаружения речей ненависти, фейковых новостей или анализа настроений, а некоторые пытались оценивать политический уклон по коротким заголовкам или твитам. Тем не менее длинные политические статьи остаются проблемой, поскольку стандартные модели ограничены в объёме текста, который они могут обработать за один раз, а признаки предвзятости могут быть разбросаны по всей статье, а не сосредоточены в одном выразительном фрагменте.

Figure 1. Система, которая читает целые политические статьи и распределяет их по группам с левым, центристским или правым уклоном.

Разбиение длинных статей на более простые части

ChunkyBERT решает эту задачу, сначала разрезая каждую длинную статью на более мелкие куски одинаковой длины, называемые чанками. Эти чанки не выравниваются по предложениям или абзацам, что делает процесс простым и предсказуемым для компьютера. Каждый чанк затем пропускается через предварительно обученную языковую модель, которая преобразует слова в числовые представления, фиксирующие их значение в контексте. Второй слой трансформера уточняет эти представления, а шаг с вниманием (attention) позволяет системе ненавязчиво выделять слова и фразы, наиболее показательныe для политического уклона, при этом понижая значимость нейтрального фона.

Собирая историю обратно

После того как каждый чанк резюмирован таким образом, ChunkyBERT усредняет описания чанков в единый общий «отпечаток» статьи. Этот отпечаток затем поступает в финальный слой принятия решения, который выбирает между левым, центристским или правым уклоном. Исследователи обучали и тестировали систему на более чем 37 000 новостных статей с известными политическими метками, в основном из источников США. Они сравнивали ChunkyBERT с более традиционными методами машинного обучения и с другими нейронными моделями, включая модели на основе рекуррентных сетей и временных свёрток, как с чанками и вниманием, так и без них.

Figure 2. Длинная статья разбивается на более мелкие фрагменты, каждый из которых анализируется, а затем результаты объединяются для определения политического наклона.

Насколько хорошо работает система

Эксперименты показали, что ChunkyBERT классифицировал статьи с валидационной точностью около 86 процентов и продемонстрировал высокий показатель стандартной меры разделения классов. Он особенно хорошо справлялся с выявлением явно левых или правых материалов, тогда как центристские статьи иногда ошибочно относились к одной из сторон, что отражает их более смешанный тон. Абляционный анализ, в котором авторы отключали части модели, показал, что как разбиение документов на чанки, так и трансформерные слои были ключевыми для достижения высокой производительности. Система также превзошла ранее использованные методы обнаружения предвзятости на той же выборке данных.

Что это значит для читателей новостей

Проще говоря, ChunkyBERT ведёт себя как внимательный, неутомимый читатель, который сканирует целые политические тексты и оценивает их положение на политическом спектре. Он не устраняет предвзятость из новостей и не решает, какие точки зрения верны, но может помочь пометить уклоны, которые иначе могли бы остаться незамеченными. При доработке и адаптации к другим языкам и регионам подобные инструменты могли бы поддерживать мониторинг медиа, учебные обсуждения и платформы цифровой грамотности, давая людям более ясное представление о том, как формируется информация прежде, чем она попадает на их экраны.

Цитирование: Loiya, D., Kulal, S.S., Reddy, M.S.M. et al. ChunkyBERT: a novel technique for multiclass political bias detection in news media. Sci Rep 16, 15323 (2026). https://doi.org/10.1038/s41598-026-46646-z

Ключевые слова: политическая предвзятость в СМИ, классификация новостей, трансформерные модели, BERT, цифровая грамотность