Clear Sky Science · fr
Une base de données validée d’émotions auditives en chinois mandarin de phrases à pronoms personnels sujets (MCAE-SPPS)
Pourquoi des mots simples comme « je » et « tu » comptent
Des expressions quotidiennes telles que « j’ai un plan » ou « tu as bien fait » véhiculent plus que de l’information : elles portent un sentiment. De subtiles variations dans qui parle de qui peuvent modifier la façon dont nous percevons et interprétons l’émotion dans une voix. Cette étude présente une grande bibliothèque sonore soigneusement vérifiée de phrases en chinois mandarin centrées sur des pronoms personnels comme « je », « tu » et « il ». Elle vise à aider les scientifiques, cliniciens et ingénieurs à mieux comprendre comment le choix du pronom colore les émotions perçues et à concevoir des outils plus performants pour la santé mentale et la communication homme‑machine.
Constituer une bibliothèque de voix émotionnelles
Pour créer cette ressource, les chercheurs ont d’abord rédigé 40 courtes phrases émotionnellement neutres en mandarin, toutes selon un schéma simple comme « j’ai un plan ». Ils ont vérifié auprès d’évaluateurs indépendants que ces phrases étaient perçues comme neutres plutôt que joyeuses ou tristes. Ensuite, ils ont remplacé le mot sujet pour obtenir six versions de chaque phrase — « je », « nous », « tu » singulier, « vous » pluriel, « il » et « ils » — en gardant le reste de la phrase identique. Cela a produit 200 phrases de base neutres, ne différant que par le pronom, de sorte que toute variation dans la perception émotionnelle puisse être attribuée à ce seul mot.
Transformer des phrases neutres en paroles émotionnelles
Six acteurs hautement formés parlant mandarin — trois hommes et trois femmes — ont enregistré chaque phrase dans sept styles émotionnels : neutre, bonheur, tristesse, colère, peur, dégoût et surprise. Chaque acteur a donc produit 1 400 enregistrements, soit 8 400 extraits au total. Les enregistrements ont eu lieu dans un studio professionnel et ont été soigneusement édités et normalisés pour assurer une qualité sonore constante. Après suppression d’un petit nombre d’extraits présentant des erreurs techniques ou de prononciation, 8 379 énoncés ont été conservés pour être testés auprès d’auditeurs.

Comment les auditeurs ont jugé les émotions dans la voix
Pour savoir à quel point chaque extrait exprimait clairement une émotion, l’équipe a recruté 720 étudiants chinois. Chaque personne a écouté quelques centaines d’extraits en ligne et, pour chaque extrait, a choisi laquelle des sept émotions elle entendait et à quelle intensité sur une échelle de neuf points. Chaque extrait a été évalué par 40 auditeurs différents, offrant un aperçu riche de la cohérence de la reconnaissance des émotions visées. Les chercheurs n’ont conservé que les enregistrements identifiés correctement au moins trois fois plus souvent que par hasard et qui n’étaient pas fréquemment confondus avec une autre émotion. Ce filtre de qualité a laissé 6 675 enregistrements « valides », couvrant toujours toutes les émotions et types de pronoms.
Ce que les données révèlent sur l’émotion et les pronoms
La base de données finale montre que certaines émotions sont bien plus faciles à entendre que d’autres : le neutre et la tristesse ont été reconnus avec la plus grande précision, tandis que la peur et le dégoût étaient plus souvent confondus. En moyenne, les femmes ont été légèrement meilleures que les hommes pour identifier les émotions dans la parole. Fait crucial, l’équipe a constaté que les pronoms importent : les phrases adressées à « tu/vous » se distinguaient des phrases à la troisième personne sur « il/ils » pour toutes les émotions, ce qui suggère que s’adresser directement à l’auditeur renforce la clarté émotionnelle. Le choix du pronom modifiait aussi la perception de l’intensité. Par exemple, les phrases en « tu » avaient tendance à paraître plus fortes pour la colère et la peur, tandis que les phrases en « je » semblaient plus intenses pour le bonheur et le dégoût. Des analyses acoustiques ont en outre relié des caractéristiques comme la hauteur, le niveau sonore et la qualité de la voix à la précision de reconnaissance de chaque émotion.

Pourquoi cette ressource est importante pour l’avenir
En termes simples, ce travail montre que de petits mots comme « je » et « tu » peuvent changer non seulement ce que nous disons mais aussi la force avec laquelle nos émotions sont perçues. En offrant des milliers d’enregistrements soigneusement étiquetés où seuls varient le pronom et la tonalité émotionnelle, la base de données Mandarin Chinese Auditory Emotion Database of Subject-Personal-Pronoun Sentences fournit aux chercheurs un outil puissant pour étudier l’interaction entre langage, émotion et perspective sociale. Elle peut soutenir des avancées en recherche cérébrale, des intelligences artificielles plus sensibles aux émotions et des outils cliniques qui détectent des changements d’humeur ou de santé mentale, le tout fondé sur la question simple mais profonde de qui parle de qui.
Citation: Li, M., Zhou, A., Yan, H. et al. A validated Mandarin Chinese Auditory Emotion Database of Subject-Personal-Pronoun Sentences (MCAE-SPPS). Sci Data 13, 602 (2026). https://doi.org/10.1038/s41597-026-06976-z
Mots-clés: parole émotionnelle, chinois mandarin, pronoms personnels, reconnaissance des émotions, base de données vocales