Clear Sky Science · fr
MIMIC-III-Ext-PPG, un jeu de données de référence basé sur la PPG pour l’analyse des signaux cardiovasculaires et respiratoires
Pourquoi les capteurs au poignet peuvent raconter une histoire de vie ou de mort
Beaucoup d’entre nous portent des montres connectées qui suivent discrètement notre pouls jour et nuit. Dans les unités de soins intensifs, un signal optique très similaire appelé photopléthysmographie, ou PPG, est enregistré en continu chez les patients gravement malades. Cet article présente MIMIC-III-Ext-PPG, la plus vaste et la plus détaillée collection publique de ces signaux de pouls à ce jour, conçue pour aider les chercheurs à développer et tester de nouveaux algorithmes pour repérer les rythmes cardiaques dangereux, estimer la pression artérielle sans brassard et suivre la respiration. 
Une immense bibliothèque d’instantanés du pouls
Les auteurs ont rassemblé plus de 6,3 millions de courts extraits de 30 secondes de signaux PPG provenant de 6 189 patients en soins intensifs dont les données font partie de la célèbre base hospitalière MIMIC-III. Chaque extrait capte la façon dont la lumière traversant un doigt varie à chaque battement cardiaque, une mesure simple aujourd’hui disponible aussi bien sur les moniteurs de chevet que sur les appareils grand public. Pour un grand nombre de ces extraits, le jeu de données inclut également des enregistrements synchronisés d’électrocardiogramme, de pression artérielle et de respiration, transformant chaque instantané du pouls en une fenêtre multi-signaux riche sur le cœur et les poumons.
Des notes au chevet aux étiquettes détaillées de rythme cardiaque
Ce qui distingue ce jeu de données, ce n’est pas seulement sa taille, mais aussi ses étiquettes. Dans le système hospitalier d’origine, les infirmières et les médecins enregistraient régulièrement le rythme cardiaque du patient sur des tableaux électroniques. L’équipe a soigneusement apparié ces entrées de feuille de soins aux temps exacts couverts par les enregistrements d’ondes, puis harmonisé les différents systèmes d’enregistrement en un ensemble unique et cohérent de 26 types de rythmes cardiaques. Ceux-ci vont du rythme normal et des simples accélérations ou ralentissements, à diverses arythmies auriculaires et ventriculaires, en passant par les rythmes commandés par pacemaker et les blocs de conduction complets. Ce niveau de détail va bien au-delà des jeux de données précédents basés sur le pouls, qui proposaient généralement une ou deux catégories de rythme.
Mesurer plus que le battement du cœur
Pour soutenir une variété d’études, les auteurs ont extrait un ensemble de signes vitaux de base directement à partir des signaux. À partir des ondes de pression artérielle, ils ont calculé les pressions systolique et diastolique typiques ; à partir du signal respiratoire, ils ont estimé la fréquence respiratoire ; et à partir de l’électrocardiogramme, ils ont dérivé la fréquence cardiaque. Ces valeurs ont été calculées sur de courtes fenêtres temporelles, en utilisant des algorithmes open source établis et des règles de bonnes pratiques pour éviter des mesures erronées. En associant ces mesures à chaque segment de 30 secondes, le jeu de données permet aux chercheurs de tester des algorithmes qui prédisent la pression artérielle, la fréquence cardiaque ou la fréquence respiratoire à partir du signal de pouls seul, et d’explorer comment ces cibles évoluent conjointement.
S’assurer que les signaux sont fiables
Les données réelles des hôpitaux peuvent être désordonnées : des capteurs se détachent, les patients bougent et des câbles se déconnectent. Pour éviter des analyses trompeuses, l’équipe a construit un pipeline de qualité du signal qui filtre chaque segment. Pour chaque type de signal, ils ont vérifié les lignes plates, les valeurs manquantes, des fréquences cardiaques ou respiratoires non plausibles et des formes d’onde incohérentes. Les segments ayant passé toutes les vérifications ont été marqués comme haute qualité ; ceux présentant des problèmes mineurs mais encore exploitables ont été étiquetés de faible qualité ; et les segments présentant des problèmes graves ont été exclus complètement. Les auteurs ont également validé une étiquette clé, la fibrillation auriculaire, en la comparant à des annotations d’électrocardiogrammes révisées par des experts issues d’une autre étude, constatant un fort accord et une spécificité quasi parfaite. 
Une base pour les algorithmes de santé futurs
En combinant une échelle massive, des étiquettes détaillées de rythme cardiaque, plusieurs signaux synchronisés et des scores de qualité explicites, MIMIC-III-Ext-PPG offre un banc d’essai puissant pour la médecine fondée sur les données. Les chercheurs peuvent l’utiliser pour évaluer de nouvelles méthodes de détection des battements cardiaques irréguliers à partir de capteurs de type poignet, estimer la pression artérielle sans brassard ou construire des modèles multitâches qui apprennent plusieurs signes vitaux en même temps. Bien qu’il ne soit pas destiné à guider à lui seul des décisions médicales en temps réel, ce jeu de données ouvert pose les bases d’algorithmes plus fiables et généralisables qui pourraient un jour transformer les capteurs de pouls quotidiens en systèmes d’alerte précoce pour des problèmes cardiaques et pulmonaires graves.
Citation: Moulaeifard, M., Kutscher, M., Aston, P.J. et al. MIMIC-III-Ext-PPG, a PPG-based Benchmark Dataset for Cardiovascular and Respiratory Signal Analysis. Sci Data 13, 668 (2026). https://doi.org/10.1038/s41597-026-07335-8
Mots-clés: photopléthysmographie, détection d’arythmie, données de soins intensifs, estimation de la pression artérielle, capteurs de santé portables