Clear Sky Science · ru
Генерация ответов, учитывающая несколько эмоций и их интенсивность, для более богатого мультимодального диалога
Почему более умным чат-ботам нужно ощущать себя ближе к нам
Сегодня многие из нас общаются с цифровыми помощниками на телефонах, компьютерах или умных колонках. Эти системы умеют отвечать на вопросы, но часто упускают эмоциональный тон наших слов. В этой статье рассматривается, как создать ИИ, который не просто распознаёт одно настроение, а может смешивать несколько чувств одновременно и учитывать силу каждого из них, объединяя речь, мимику и текст.

От простых настроений к многослойным ощущениям
Повседневные разговоры редко бывают чистой радостью или лишь гневом. Одна фраза может нести одновременно удивление и радость, или гнев, смешанный с отвращением; каждое чувство может быть слабым или сильным. Ранее системы диалога обычно пытались привязать каждое сообщение к одной основной эмоции. Даже если они допускали наличие нескольких эмоций, то часто считали их одинаково выраженными. В результате их ответы звучали либо плоско, либо чересчур эмоционально, и не сохраняли того, какая эмоция должна доминировать в ответе.
Слушая глазами, ушами и словами
Чтобы справиться с этим, авторы опираются на большую коллекцию сцен из восьми популярных англоязычных телешоу, охватывающих драму и комедию. Исходный набор данных, названный MEIMD, помечал каждую реплику несколькими эмоциями и оценкой интенсивности для каждой, но содержал только текст сценария. Исследователи обогатили его, добавив соответствующие аудио- и видеоклипы, создав новый мультимодальный ресурс MEIMD++. Теперь к каждому предложению прилагаются голос актёра и его мимика наряду со словами, что даёт более полное представление о том, как эмоции действительно выражаются.

Как работает новая модель диалога внутри
Предложенная система, названная MMEI-DD, состоит из нескольких компонентов глубокого обучения, каждый из которых фокусируется на своём сигнале. Одна часть обрабатывает текст диалога, другая — видеокадры, третья — звук. Специальный модуль затем изучает взаимосвязи между этими потоками, например связывая резкий тон и хмурое выражение лица с внешне нейтральной фразой. Такое объединённое представление позволяет модели точнее оценивать, какие эмоции присутствуют и насколько они сильны, прежде чем она выберет ответ.
Смешивание нескольких эмоций с нужной силой
Вместо того чтобы определить одно настроение и сгенерировать ответ за один проход, модель использует двухэтапный процесс декодирования. На первом этапе она создаёт черновой ответ, ориентируясь на одну эмоцию и её выбранную интенсивность, например сильный гнев. На втором этапе этот черновик уточняется путём добавления второй эмоции и её силы, например лёгкого удивления или слабого отвращения. Разделив эти шаги, система избегает того, чтобы одно чувство полностью задавило остальные, и сохраняет баланс между ними ближе к тому, что наблюдается в оригинальном разговоре.
Приводят ли более «богатые» эмоциональные сигналы к лучшим ответам
Чтобы проверить подход, авторы сравнивают MMEI-DD с несколькими предыдущими системами по автоматическим метрикам и оценкам людей. Они измеряют, насколько свободны и релевантны ответы, насколько хорошо они соответствуют заданным эмоциям и насколько точно сила каждой эмоции совпадает с целью. По всем этим тестам новая модель создаёт более связные, эмоционально детализированные ответы, чем методы, опирающиеся только на текст или игнорирующие интенсивность. Оценки людей также показывают, что её ответы кажутся более естественными и эмоционально уместными.
Что это значит для повседневных ИИ-помощников
Для неспециалистов ключевая идея такова: будущие чат-боты и голосовые помощники смогут реагировать не только на то, что мы говорим, но и на тонкую смесь чувств за нашими словами. Объединяя звук, мимику и язык, а также тщательно управляя несколькими эмоциями и их интенсивностью, системы вроде MMEI-DD приближают диалог к общению, в котором тебя понимают, а не просто отвечают.
Цитирование: Singh, A., Shree, R., Pandey, D. et al. Multi-emotion and intensity-driven response generation for richer multimodal dialogue. Sci Rep 16, 15696 (2026). https://doi.org/10.1038/s41598-026-41034-z
Ключевые слова: эмоциональные чат-боты, мультимодальный диалог, анализ настроений, интенсивность эмоций, разговорный ИИ