Clear Sky Science · ru

Генерация ответов, учитывающая несколько эмоций и их интенсивность, для более богатого мультимодального диалога

2026-04-02 · Назад к списку

Почему более умным чат-ботам нужно ощущать себя ближе к нам

Сегодня многие из нас общаются с цифровыми помощниками на телефонах, компьютерах или умных колонках. Эти системы умеют отвечать на вопросы, но часто упускают эмоциональный тон наших слов. В этой статье рассматривается, как создать ИИ, который не просто распознаёт одно настроение, а может смешивать несколько чувств одновременно и учитывать силу каждого из них, объединяя речь, мимику и текст.

Figure 1. ИИ-ассистент, объединяющий голосовые, мимические и текстовые сигналы для ответов с более сложными смешанными эмоциями.

От простых настроений к многослойным ощущениям

Повседневные разговоры редко бывают чистой радостью или лишь гневом. Одна фраза может нести одновременно удивление и радость, или гнев, смешанный с отвращением; каждое чувство может быть слабым или сильным. Ранее системы диалога обычно пытались привязать каждое сообщение к одной основной эмоции. Даже если они допускали наличие нескольких эмоций, то часто считали их одинаково выраженными. В результате их ответы звучали либо плоско, либо чересчур эмоционально, и не сохраняли того, какая эмоция должна доминировать в ответе.

Слушая глазами, ушами и словами

Чтобы справиться с этим, авторы опираются на большую коллекцию сцен из восьми популярных англоязычных телешоу, охватывающих драму и комедию. Исходный набор данных, названный MEIMD, помечал каждую реплику несколькими эмоциями и оценкой интенсивности для каждой, но содержал только текст сценария. Исследователи обогатили его, добавив соответствующие аудио- и видеоклипы, создав новый мультимодальный ресурс MEIMD++. Теперь к каждому предложению прилагаются голос актёра и его мимика наряду со словами, что даёт более полное представление о том, как эмоции действительно выражаются.

Figure 2. Внутренний взгляд на модель ИИ, смешивающую несколько эмоционных сигналов с разной степенью выраженности в одном ответе.

Как работает новая модель диалога внутри

Предложенная система, названная MMEI-DD, состоит из нескольких компонентов глубокого обучения, каждый из которых фокусируется на своём сигнале. Одна часть обрабатывает текст диалога, другая — видеокадры, третья — звук. Специальный модуль затем изучает взаимосвязи между этими потоками, например связывая резкий тон и хмурое выражение лица с внешне нейтральной фразой. Такое объединённое представление позволяет модели точнее оценивать, какие эмоции присутствуют и насколько они сильны, прежде чем она выберет ответ.

Смешивание нескольких эмоций с нужной силой

Вместо того чтобы определить одно настроение и сгенерировать ответ за один проход, модель использует двухэтапный процесс декодирования. На первом этапе она создаёт черновой ответ, ориентируясь на одну эмоцию и её выбранную интенсивность, например сильный гнев. На втором этапе этот черновик уточняется путём добавления второй эмоции и её силы, например лёгкого удивления или слабого отвращения. Разделив эти шаги, система избегает того, чтобы одно чувство полностью задавило остальные, и сохраняет баланс между ними ближе к тому, что наблюдается в оригинальном разговоре.

Приводят ли более «богатые» эмоциональные сигналы к лучшим ответам

Чтобы проверить подход, авторы сравнивают MMEI-DD с несколькими предыдущими системами по автоматическим метрикам и оценкам людей. Они измеряют, насколько свободны и релевантны ответы, насколько хорошо они соответствуют заданным эмоциям и насколько точно сила каждой эмоции совпадает с целью. По всем этим тестам новая модель создаёт более связные, эмоционально детализированные ответы, чем методы, опирающиеся только на текст или игнорирующие интенсивность. Оценки людей также показывают, что её ответы кажутся более естественными и эмоционально уместными.

Что это значит для повседневных ИИ-помощников

Для неспециалистов ключевая идея такова: будущие чат-боты и голосовые помощники смогут реагировать не только на то, что мы говорим, но и на тонкую смесь чувств за нашими словами. Объединяя звук, мимику и язык, а также тщательно управляя несколькими эмоциями и их интенсивностью, системы вроде MMEI-DD приближают диалог к общению, в котором тебя понимают, а не просто отвечают.

Цитирование: Singh, A., Shree, R., Pandey, D. et al. Multi-emotion and intensity-driven response generation for richer multimodal dialogue. Sci Rep 16, 15696 (2026). https://doi.org/10.1038/s41598-026-41034-z

Ключевые слова: эмоциональные чат-боты, мультимодальный диалог, анализ настроений, интенсивность эмоций, разговорный ИИ