Clear Sky Science · ru

Набор данных User eXperience Perception Insights (UXPID): синтетическая обратная связь пользователей из публичных промышленных форумов

· Назад к списку

Почему важны онлайн‑технические обсуждения

Ежедневно люди по всему миру публикуют вопросы и жалобы в службах поддержки и на форумах компаний, когда их программное обеспечение или промышленные устройства работают некорректно. В этих ветках скрыт кладезь сведений о том, с чем на самом деле испытывают трудности пользователи, что им нравится и что им ещё требуется. Однако эти данные беспорядочны, разбросаны и часто защищены правилами конфиденциальности. В статье представлен новый способ получить доступ к этим скрытым знаниям, не раскрывая личные данные.

Figure 1. Как реальные обсуждения на пользовательских форумах превращаются в безопасный, структурированный набор данных для изучения опыта использования продукта в масштабе
Figure 1. Как реальные обсуждения на пользовательских форумах превращаются в безопасный, структурированный набор данных для изучения опыта использования продукта в масштабе

Преобразование разговоров на форумах в материал для исследований

Авторы представляют набор данных User eXperience Perception Insights, или UXPID — большую коллекцию синтетических пользовательских обсуждений, основанных на данных публичного форума по промышленной автоматизации. Вместо публикации исходных сообщений, которые могут содержать имена, коды продуктов и детали компаний, они создали аккуратно переформулированные версии, сохраняющие смысл, но удаляющие чувствительные подсказки. Каждая запись описывает всю ветку обсуждения, начиная с вопроса пользователя и включая все ответы, чтобы исследователи видели не отдельные комментарии, а целые разговоры по решению проблем.

Добавление структуры в хаотичные беседы

Что выделяет UXPID, так это богатая структура, наложенная на исходный текст. Команда использовала мощную языковую модель, чтобы прочитать каждое обсуждение и составить резюме основной проблемы, ожиданий пользователя и кажущейся степени серьёзности. Также для каждой ветки были присвоены топики, отмечено, был ли тон положительным, отрицательным или нейтральным, и выделены короткие фразы о болях, выгодах и запрошенных функциях. Это превращает свободную неструктурированную болтовню в организованные данные, на которых компьютеры могут учиться.

Figure 2. Как необработанные комментарии с форумов анонимизируются и поэтапно преобразуются в размеченные данные для моделей ИИ
Figure 2. Как необработанные комментарии с форумов анонимизируются и поэтапно преобразуются в размеченные данные для моделей ИИ

Сохранение анонимности при сохранении сути

Защита участников форума была ключевой задачей. Языковую модель инструктировали заменять названия компаний, марки продуктов, номера версий, личные имена, адреса электронной почты и веб‑ссылки простыми заполнительными метками, одновременно слегка переформулируя каждый комментарий. После этого автоматического этапа команда применяла поиск по шаблонам, чтобы поймать оставшиеся подсказки вроде форматов электронных адресов или IP, а затем вручную проверяла выборки. Они также сравнили исходные и обработанные тексты, показав, что длина и разнообразие предложений остались похожими, хотя вопли ВСЕМИ ЗАГЛАВНЫМИ и серии восклицательных знаков были смягчены.

Проверка пригодности набора данных

Чтобы понять, действительно ли новый набор данных полезен, авторы обучили на нём два типа моделей. Одна — классический подход на основе подсчёта слов, другая — современная трансформер‑модель DistilBERT, способная улавливать контекст в предложениях. Моделям предлагалось угадывать метки тем и общую тональность каждого обсуждения. Трансформер последовательно показывал лучшие результаты, особенно в сложных случаях с несколькими темами, что говорит о том, что UXPID достаточно информативен для поддержки продвинутых языковых инструментов задач вроде обнаружения проблем и анализа тональности.

Значение для будущих инструментов

Проще говоря, в статье показано, что можно превратить шумные, приватные ветки форумов в чистый, доступный ресурс, который при этом отражает реальное использование продуктов. UXPID предлагает тысячи анонимизированных, размеченных разговоров, которыми другие могут пользоваться для создания и сравнения систем, читающих и понимающих отзывы пользователей в масштабе. Это может привести к более умным инструментам поддержки, лучшим решениям в дизайне продуктов и новым способам выявления паттернов в пользовательском опыте, при этом уважая приватность авторов исходных сообщений.

Цитирование: Kulyabin, M., Joosten, J., Ulan uulu, C. et al. User eXperience Perception Insights Dataset (UXPID): Synthetic User Feedback from Public Industrial Forums. Sci Data 13, 762 (2026). https://doi.org/10.1038/s41597-026-07253-9

Ключевые слова: обратная связь пользователей, технические форумы, обработка естественного языка, синтетический набор данных, пользовательский опыт