Clear Sky Science · fr

Nouvelle méthode universelle centrée sur le domaine pour la classification des protéines

· Retour à l’index

Pourquoi trier les protéines compte pour la santé

À l’intérieur de chaque cellule, des milliers de petites machines protéiques maintiennent la vie. Parmi les plus importantes figurent les protéines kinases, des enzymes qui activent ou désactivent d’autres protéines et qui sont des cibles majeures de nombreux médicaments modernes, notamment en cancérologie. Pourtant, les chercheurs ont encore du mal à classer proprement toutes les kinases en familles reflétant leur mode d’action. Cet article présente une nouvelle façon de classer les kinases — et, en principe, bien d’autres protéines — en se concentrant sur la région centrale partagée qui accomplit le travail, et sur les caractéristiques physico-chimiques de base de ses éléments constitutifs. Cela promet des cartographies de familles protéiques plus précises et, in fine, de meilleurs indices pour concevoir des médicaments.

Figure 1
Figure 1.

Des arbres familiaux à une empreinte plus détaillée

Traditionnellement, les kinases ont été regroupées en classes en comparant leurs séquences d’ADN ou de protéines et en construisant des « arbres familiaux » évolutifs. Cette approche a été très fructueuse, révélant environ 500 kinases humaines réparties en plusieurs groupes principaux tels que AGC, CAMK, CMGC, STE, TK, TKL, et d’autres. Pourtant, de nombreuses kinases nouvellement découvertes ne s’intègrent pas parfaitement dans ces groupes : leurs séquences diffèrent, alors même qu’elles peuvent se comporter de façon similaire dans la cellule. Les comparaisons classiques prêtent aussi peu d’attention aux propriétés sous-jacentes de chaque acide aminé — taille, charge ou caractère hydrophile — qui déterminent le repliement et la fonction d’une protéine. Les auteurs soutiennent que pour comprendre véritablement les familles de kinases, il faut aller au-delà d’un simple appariement alphabétique des séquences et examiner ces empreintes physico-chimiques.

Zoom sur le cœur actif des kinases

Pour cela, les chercheurs ont utilisé un alignement de haute qualité de 497 domaines de kinases humaines, les noyaux compacts qui réalisent réellement la réaction chimique d’ajout de groupes phosphate. Pour chaque position dans cette carte de domaine partagée, ils ont remplacé la lettre de l’acide aminé par jusqu’à 30 descripteurs numériques capturant des propriétés telles que la charge, l’hydrophobicité, la polarité et la taille, plus un marqueur supplémentaire pour les lacunes. Le résultat est un portrait numérique détaillé de chaque domaine de kinase, où un comportement tridimensionnel similaire devrait se traduire par des motifs semblables dans ces nombres. Ils ont ensuite réduit la complexité de ces portraits en utilisant l’analyse en composantes principales, une technique standard qui condense de nombreuses mesures en quelques directions principales capturant les plus grandes différences.

Laisser les données se regrouper seules

Sans indiquer à l’ordinateur à quelle classe connue appartenait chaque kinase, l’équipe a appliqué une méthode de clustering non supervisée appelée k-means aux données numériques réduites. Ils ont exploré de nombreux nombres possibles de clusters et utilisé des scores statistiques pour identifier les regroupements les plus significatifs, puis ont combiné plusieurs de ces solutions en un ensemble final de 24 grappes, chacune assortie d’un score de confiance reflétant sa stabilité entre les exécutions. Remarquablement, environ 90 % des kinases se sont retrouvées dans des clusters correspondant à leurs étiquettes de classe d’origine, ce qui suggère que le portrait de domaine physico-chimique retrouve — et parfois affine — les classifications existantes. Certaines grappes contenaient un mélange d’une classe majeure et de kinases précédemment classées « OTHER », suggérant que ces excentriques appartiendraient en fait à une famille établie.

Découvrir les points chauds structuraux clés

Au-delà du regroupement, la méthode révèle quelles parties du domaine de la kinase expliquent réellement ces différences. En combinant les composantes principales avec les propriétés résiduelles puis en réalisant des tests de randomisation, les auteurs ont identifié des positions spécifiques dont les motifs de propriétés distinguent fortement une classe des autres. Un exemple marquant est un site dans la région de la boucle d’activation des kinases CMGC qui porte presque toujours un résidu chargé positivement, contrairement à la plupart des autres classes. Les modèles structurels montrent que, dans une kinase CMGC représentative, ce résidu aide à stabiliser des sites phosphorylés voisins cruciaux pour l’activation de l’enzyme. Fait intéressant, une kinase « non classée » appelée CDC7 partage un environnement similaire à ce site, appuyant la prédiction qu’elle se comporte comme une kinase CMGC même si son histoire évolutive est différente.

Figure 2
Figure 2.

Apprendre aux machines à étiqueter l’inconnu

Pour transformer ces observations en prédictions pratiques, l’équipe a entraîné des modèles d’apprentissage supervisé — dont la régression logistique, les forêts aléatoires et un classifieur probabiliste — sur les empreintes physico-chimiques des kinases aux étiquettes connues. Après un réglage fin et une validation croisée, ces modèles ont pu assigner avec précision des kinases aux classes principales en n’utilisant qu’une poignée de composantes principales. Appliqués à 66 kinases laissées dans le groupe fourre-tout « OTHER », les modèles en ont réaffecté de façon cohérente plusieurs, comme CDC7 et des membres de la famille ULK, à des classes de kinases spécifiques. Des vérifications structurelles de ces réaffectations, notamment autour des positions clés identifiées plus tôt, ont soutenu les prédictions des modèles et illustré comment la méthode peut guider la reclassification et des suivis expérimentaux.

Une recette générale pour cartographier les familles de protéines

En termes simples, ce travail montre qu’on peut trier les protéines non seulement en lisant leurs séquences, mais en distillant la façon dont leurs parties centrales se comportent physiquement et chimiquement. Pour les kinases, cette vision centrée sur le domaine et basée sur les propriétés retrouve les familles connues, aide à reclasser les éléments discordants et met en lumière des « points chauds » structuraux importants pour l’activité et la régulation. Parce que la méthode repose seulement sur un alignement de domaine partagé et des descripteurs généraux d’acides aminés, les auteurs démontrent aussi qu’elle peut s’appliquer à d’autres groupes protéiques, comme les petites GTPases, et pourrait s’étendre aux immunoglobulines, aux récepteurs couplés aux protéines G, et au-delà. À mesure que ces cartes se raffinent, elles pourraient orienter la conception de médicaments plus sélectifs, aider à interpréter des mutations causant des maladies et offrir un atlas plus clair et axé sur la fonction de l’univers protéique.

Citation: Fadaei, S., Krebs, F.S. & Zoete, V. Novel universal domain-centric method for protein classification. Sci Rep 16, 11850 (2026). https://doi.org/10.1038/s41598-026-41142-w

Mots-clés: protéines kinases, classification des protéines, apprentissage automatique, domaines protéiques, biologie structurale