Clear Sky Science · fr
Approche d'apprentissage multitâche combinant régression et classification pour une sélection conjointe de variables
Pourquoi cet outil de données est important
La médecine moderne recueille d’énormes quantités d’informations sur chaque patient, des résultats de laboratoire et constantes vitales aux mesures détaillées du cerveau et du génome. Les cliniciens et chercheurs souhaitent souvent prédire plusieurs choses à la fois — par exemple un diagnostic de maladie et les niveaux de marqueurs sanguins importants — tout en identifiant quelles mesures sont réellement les plus informatives. Cet article présente un nouvel outil statistique, nommé MTLComb, qui aide à accomplir ces deux tâches simultanément de manière plus équitable et fiable, en particulier lorsque les prédictions à réaliser ne sont pas du même type.

Des questions différentes, un problème commun
Beaucoup de systèmes d’apprentissage automatique sont conçus pour répondre à un seul type de question, comme prédire une valeur numérique (par exemple l’âge ou la tension artérielle) ou prédire une issue binaire (par exemple présence ou absence d’une maladie). Dans les études médicales réelles, ces questions apparaissent souvent ensemble et sont entraînées par des causes biologiques qui se recoupent. Idéalement, un seul système apprendrait toutes ces tâches en même temps et mettrait en évidence les mesures importantes à travers les tâches — des biomarqueurs potentiels communs aux différents résultats. Les méthodes existantes d’apprentissage multitâche peuvent le faire lorsque toutes les tâches sont du même type, mais elles peinent lorsque prédictions numériques et prédictions binaires sont mélangées. Un type de tâche tend à dominer l’entraînement, et des signaux partagés importants peuvent être négligés.
Rééquilibrer l’influence des tâches au sein de l’algorithme
Le cœur de MTLComb est une règle simple mais soigneusement dérivée pour rééquilibrer la façon dont les différentes tâches de prédiction influencent l’apprentissage. Les auteurs montrent que les fonctions de perte utilisées pour les prédictions numériques et binaires opèrent naturellement à des échelles différentes et ont des gradients de force distincte. Si on les combine naïvement, les modèles pour issues continues commenceront à sélectionner de nombreuses variables, tandis que les modèles pour issues binaires peuvent n’en sélectionner aucune pour le même niveau de pénalité, biaisant ainsi la liste de variables partagées. En analysant le comportement de ces gradients, les chercheurs identifient un ensemble fixe de poids qui alignent les courbes d’apprentissage — appelées chemins de régularisation — des deux types de tâches. Cela signifie que, lorsque le modèle devient plus ou moins sélectif, les deux types de tâches ajoutent et retirent des variables de façon coordonnée, rendant l’ensemble de biomarqueurs résultant plus équilibré et plus interprétable.

Évaluer la méthode par des simulations contrôlées
Pour déterminer quand MTLComb apporte le plus de bénéfice, l’équipe a d’abord mené de vastes études de simulation. Ils ont créé des jeux de données où le nombre de mesures était bien supérieur au nombre de patients, une situation courante en génétique et en soins intensifs. Ils ont fait varier l’ampleur de ce déséquilibre, le nombre de tâches de prédiction incluses et l’inégalité des étiquettes binaires. Dans ces scénarios, MTLComb ne se contentait pas de prédire les données futures plus précisément que les méthodes concurrentes : il retrouvait aussi mieux les variables réellement pertinentes implantées dans les simulations. Son avantage était particulièrement marqué lorsque les données étaient très haute dimensionnalité ou lorsqu’une classe d’issue était beaucoup plus rare que l’autre — deux contextes notoirement difficiles en recherche médicale.
Tests réels en sepsie et en schizophrénie
Les auteurs ont ensuite appliqué MTLComb à deux problèmes cliniques difficiles. Pour la sepsie, une réaction potentiellement mortelle à l’infection, ils ont entraîné la méthode sur des données de soins intensifs collectées de routine pour prédire à la fois la présence de sepsie et plusieurs marqueurs sanguins du métabolisme et de la fonction rénale. MTLComb a atteint une précision de prédiction comparable à des méthodes fortes en tâche unique, mais les variables qu’il a sélectionnées étaient plus stables entre deux cohortes de patients indépendantes et mieux corrélées à des scores cliniques établis résumant la sévérité des patients. Pour la schizophrénie, ils ont combiné la prédiction de l’âge avec le diagnostic de la maladie à partir de données d’expression génique cérébrale. MTLComb a mis au jour des ensembles de gènes dont le comportement était cohérent à la fois pour l’âge et pour le statut de la maladie ; ces gènes étaient enrichis dans des voies de signalisation cérébrale déjà associées à la schizophrénie et au vieillissement, suggérant une route biologique partagée impliquant la plasticité synaptique.
Implications pour l’avenir
Pour un non‑spécialiste, le message clé est que MTLComb permet de poser plusieurs questions médicales à la fois tout en respectant chacune d’elles. Plutôt que de laisser un type de prédiction écraser les autres, il les équilibre de façon à ce que les mesures les plus informatives émergent de manière cohérente. La méthode est conçue pour être efficace, fonctionne bien lorsque le nombre de mesures dépasse largement celui des patients, et ne repose pas sur des hypothèses spécifiques à une maladie. À ce titre, elle offre aux chercheurs une fenêtre plus claire sur les marqueurs de risque partagés — que ce soit en sepsie, en schizophrénie ou dans des domaines totalement différents où apparaissent des problèmes de prédiction mixte — et peut aider à transformer des données complexes et multi‑couches en indices plus fiables pour le diagnostic, le pronostic et le traitement.
Citation: Cao, H., Rajan, S., Hahn, B. et al. A multi-task learning approach combining regression and classification tasks for joint feature selection. Sci Rep 16, 12699 (2026). https://doi.org/10.1038/s41598-026-43551-3
Mots-clés: apprentissage multitâche, biomarqueurs, sepsie, schizophrénie, IA médicale