Clear Sky Science · fr

Utilisation de l’apprentissage automatique et de la voix pour la classification multiclasse de la maladie de Parkinson, de la maladie pulmonaire obstructive chronique et des témoins sains

2026-05-19 · Retour à l’index

Écouter la maladie à travers la voix humaine

La plupart d’entre nous ne pensent guère à tout ce que notre voix révèle sur notre santé. Pourtant, des changements subtils de hauteur, de stabilité ou d’aspérité peuvent contenir des indices sur des troubles qui touchent le cerveau et les poumons. Cette étude examine si un bref enregistrement d’une personne tenant la voyelle « ah » sur un smartphone, combiné à l’apprentissage automatique moderne, peut aider à distinguer les personnes atteintes de la maladie de Parkinson, celles atteintes de maladie pulmonaire obstructive chronique (MPOC) et des adultes âgés sains.

Figure 1. De simples sons vocaliques enregistrés au téléphone alimentent un modèle qui trie les voix en groupes Parkinson, MPOC ou saines.

Pourquoi Parkinson et la MPOC modifient notre façon de parler

La maladie de Parkinson est surtout connue pour le tremblement et la raideur, mais elle rend souvent aussi la parole plus faible, plus monotone et moins claire. La MPOC, une maladie pulmonaire chronique, rétrécit les voies aériennes et rend la respiration difficile, ce qui peut à son tour rendre la voix faible, enrouée ou souffleuse. Bien que ces deux maladies perturbent l’acte simple de produire un son, les médecins manquent encore de tests rapides et objectifs basés sur la voix. La plupart des recherches antérieures ont demandé aux ordinateurs de trancher seulement entre « malade » et « sain », généralement pour une maladie à la fois et dans une seule langue. Les auteurs ont posé une question plus difficile et plus réaliste : un seul système peut-il écouter des sons de parole très simples, dans différentes langues, et classer les personnes simultanément en trois groupes ?

Comment les chercheurs ont collecté et mis en forme les voix

L’équipe a combiné deux grandes collections vocales enregistrées sur des appareils mobiles. L’une, issue du projet mPower, contenait des anglophones atteints de la maladie de Parkinson et des volontaires sains. L’autre, appelée COPDVD, contenait des locuteurs suédois atteints de MPOC et des témoins sains appariés. Pour rendre les groupes comparables, les chercheurs ont soigneusement sélectionné des nombres similaires d’hommes et de femmes, avec des âges et des comptes d’enregistrements proches, obtenant au final 96 personnes et 1 723 enregistrements exploitables de « ah » tenu. Ils ont retiré les segments silencieux, puis transformé chaque enregistrement en une description de 102 nombres capturant des mesures vocales de base comme la hauteur et la rugosité, ainsi que des empreintes spectrales détaillées connues sous le nom de coefficients cepstraux en fréquence de Mel.

Figure 2. Une voix se transforme en motifs acoustiques, traverse quatre modèles qui votent ensemble, et aboutit à trois grappes vocales séparées.

Former une équipe de vote d’algorithmes à l’écoute

Plutôt que de faire confiance à une seule méthode d’apprentissage automatique, les chercheurs ont construit un « comité de vote » de quatre classificateurs différents. Chaque algorithme examinait l’ensemble de caractéristiques d’un enregistrement et produisait sa propre estimation quant à savoir s’il provenait d’une personne atteinte de Parkinson, de MPOC ou d’un témoin sain, accompagnée d’une probabilité pour chaque option. Ces probabilités ont ensuite été moyennées de sorte que la réponse finale reflète le consensus du groupe. Pour éviter de se leurrer par un surapprentissage, l’équipe a utilisé une stratégie d’entraînement rigoureuse : les modèles ont été ajustés et testés de nombreuses fois sur des plis séparés des données, et la performance finale a été évaluée sur un ensemble complètement distinct de personnes dont les enregistrements n’avaient jamais été rencontrés pendant l’entraînement.

Ce que le système a entendu dans les voix

Sur cet ensemble de test indépendant, l’ensemble a atteint environ 84 % de précision globale et un score F1 équilibré juste en dessous de 0,84, ce qui signifie qu’il a bien performé sur les trois groupes malgré des différences de taille d’échantillon. Le système était particulièrement efficace pour repérer la maladie de Parkinson, qui affichait la plus haute précision et rappel. Les voix saines ont été classées avec un succès intermédiaire, tandis que les voix de MPOC étaient les plus difficiles à identifier et étaient le plus souvent confondues avec des enregistrements sains. Fait notable, Parkinson et MPOC étaient rarement prises l’une pour l’autre, ce qui suggère que leurs signatures vocales, bien que toutes deux anormales, diffèrent de façons détectables par les algorithmes. Lorsque les chercheurs ont examiné comment les voyelles occupaient « l’espace » acoustique défini par leurs fréquences de résonance, ils ont trouvé des déplacements et des étalements subtils mais cohérents entre les trois groupes, même si les langues différaient.

Jeter un coup d’œil à l’intérieur de la boîte noire

Pour comprendre ce qui guidait les décisions du système, l’équipe a utilisé un outil d’explicabilité moderne qui attribue un score d’influence à chaque caractéristique vocale. Ils ont découvert que les traits acoustiques les plus importants n’étaient pas les mêmes pour chaque groupe. L’âge, les formes spectrales détaillées et les mesures liées à la hauteur jouaient tous un rôle, mais en combinaisons différentes pour la maladie de Parkinson, la MPOC et les témoins sains. Par exemple, certains descripteurs spectraux et motifs de formants étaient plus influents dans la MPOC, tandis que des indices spectraux et de hauteur particuliers jouaient un rôle plus marqué dans la maladie de Parkinson. Ce schéma suggère que le modèle a véritablement appris des aspects spécifiques à la maladie de la production d’une voyelle soutenue, plutôt que de se contenter de détecter qu’une voix « semble » anormale.

Ce que cela pourrait signifier pour les soins courants

En termes simples, ce travail montre qu’un « ah » bref et soutenu enregistré sur un appareil mobile ordinaire peut contenir suffisamment d’informations pour qu’un système d’apprentissage automatique soigneusement conçu distingue des problèmes vocaux d’origine cérébrale et pulmonaire et des voix liées au vieillissement normal. Cette approche ne remplace pas un diagnostic médical, et des études plus larges et plus diversifiées sont nécessaires, mais elle ouvre la voie à un futur où des contrôles vocaux rapides et non invasifs pourraient aider les cliniciens à dépister et surveiller les personnes atteintes de la maladie de Parkinson ou de la MPOC, y compris à travers différentes langues et contextes.

Citation: Idrisoglu, A., Behrens, A. Use of machine learning and voice for multiclass classification of Parkinson’s disease, chronic obstructive pulmonary disease, and healthy controls. Sci Rep 16, 15485 (2026). https://doi.org/10.1038/s41598-026-53409-3

Mots-clés: maladie de Parkinson, MPOC, biomarqueur vocal, apprentissage automatique, santé mobile