Clear Sky Science · fr

Un cadre innovant pour la transmission sécurisée des données utilisant la classification par apprentissage automatique et le chiffrement ElGamal avec des nombres premiers de Ramanujan

· Retour à l’index

Pourquoi protéger les messages du quotidien est important

Chaque jour, des banques, des hôpitaux et des administrations envoient des messages numériques courts, allant d’alertes d’actualité banales à des notifications de compte hautement sensibles. Traiter tous ces messages comme également secrets gaspille des ressources informatiques, mais être trop laxiste peut exposer des personnes à la fraude et à des atteintes à la vie privée. Cet article explore une méthode pour trier automatiquement les messages selon leur sensibilité, puis les protéger avec des niveaux de chiffrement adaptés, visant à équilibrer sécurité, rapidité et usage des ressources.

Séparer les notes inoffensives des alertes critiques

Pour commencer, les auteurs construisent un système simple de classification de texte qui sépare les messages ordinaires, comme les titres d’actualité généraux, des messages hautement sensibles, comme les notifications bancaires et les alertes de transaction. Ils créent un petit jeu de données de 200 courtes phrases soigneusement rédigées, moitié financières et moitié actualités générales, et nettoient les textes en supprimant la ponctuation, les chiffres et les mots d’arrêt courants. Chaque message est transformé en empreinte numérique à l’aide d’une technique standard qui met en valeur les mots fréquents dans un message mais rares globalement. Plusieurs méthodes d’apprentissage automatique populaires sont testées, notamment K-Nearest Neighbors, Support Vector Machines, Linear Discriminant Analysis et K-means. En utilisant une validation croisée à cinq plis pour éviter le surapprentissage, le modèle de Support Vector Machine fournit la performance la plus précise et la plus stable, devenant l’outil préféré pour décider si un message est simplement routinier ou réellement sensible.

Deux voies de chiffrement pour deux types de données

Une fois les messages étiquetés, ils empruntent l’une des deux voies de chiffrement. Les messages d’une sensibilité ordinaire sont protégés à l’aide du schéma standard de clé publique ElGamal, une méthode bien connue qui repose sur la difficulté d’un problème mathématique appelé le logarithme discret. Les messages hautement sensibles suivent une voie modifiée qui est identique dans la façon de chiffrer et déchiffrer les données mais diffère dans le choix de l’un des nombres secrets cruciaux, connu comme le module premier. Ici, les auteurs expérimentent avec une famille spéciale de nombres premiers appelée nombres premiers de Ramanujan, qui présentent des propriétés d’espacement intéressantes parmi les nombres premiers. Il est important de souligner que ce choix ne rend pas les mathématiques sous-jacentes plus difficiles à casser ; il offre plutôt une manière structurée et nouvelle de générer des clés sans modifier les bases de sécurité éprouvées d’ElGamal.

Figure 1
Figure 1.

Vérifier qu’aucune altération n’a eu lieu

Le chiffrement seul ne garantit pas qu’un message n’a pas été modifié en transit. Pour ajouter cette protection, le cadre attache un code d’authentification de message basé sur un hachage (HMAC) à chaque message chiffré avant son envoi. Ce mécanisme utilise un secret partagé et une fonction de hachage à sens unique pour produire une étiquette compacte qui change si même un seul bit du message est modifié. Du côté récepteur, le même secret et la même fonction de hachage sont utilisés pour recalculer l’étiquette et la comparer à celle qui a été envoyée ; ce n’est que si elles correspondent que le message est accepté comme authentique. Les auteurs implémentent toutes les étapes — classification, génération de clés, chiffrement, déchiffrement et HMAC — au sein d’un seul programme Python et évaluent la durée de chaque opération ainsi que la quantité de données pouvant être traitée par unité de temps.

Ce que révèlent les résultats de temps

Les tests de performance comparent le traitement des messages de sensibilité normale et de sensibilité élevée, avec et sans l’étape HMAC supplémentaire. Comme prévu, l’ajout de l’authentification augmente le temps de traitement pour tous les messages. Lorsque des nombres premiers de Ramanujan sont utilisés pour la voie hautement sensible, le chiffrement et le déchiffrement de ces messages présentent un débit et un taux de données moyens plus faibles que la voie ordinaire, ce qui signifie que le système traite moins de kilo-octets par milliseconde et que chaque bit de données met plus de temps à être traité. D’un point de vue pratique, le cadre consacre délibérément plus de temps et d’effort de calcul au trafic le plus sensible, tandis que les messages moins critiques transitent plus rapidement. En même temps, les auteurs notent que cette surcharge supplémentaire pour les données critiques se traduit par une utilisation mémoire par unité de données plus faible, ce qui peut aider à maintenir les demandes en ressources gérables sur des serveurs très sollicités.

Figure 2
Figure 2.

Ce que ce travail signifie pour la communication sécurisée

En termes simples, l’étude montre qu’il est possible de concevoir un système de sécurité qui évalue automatiquement la sensibilité d’un message, puis le fait transiter par un niveau de protection adapté, tout en préservant les garanties de sécurité fondamentales d’une méthode de chiffrement éprouvée. L’utilisation des nombres premiers de Ramanujan ajoute une touche mathématique nouvelle à la façon dont les clés secrètes sont choisies, sans prétendre renforcer la sécurité au-delà de celle d’ElGamal standard. Bien que le classificateur de texte ne soit qu’une preuve de concept construite sur un petit jeu de données soigneusement sélectionné, l’architecture globale ouvre la voie à des systèmes futurs dans lesquels messages quotidiens, alertes financières et notifications médicales peuvent être traités différemment mais de manière cohérente, économisant des ressources informatiques sans compromettre la confidentialité et l’intégrité des informations qui importent le plus aux personnes.

Citation: Haritha, N., Narayanan, V. & Srikanth, R. An innovative framework for secure data transmission using machine learning based classification and ElGamal encryption with Ramanujan primes. Sci Rep 16, 11090 (2026). https://doi.org/10.1038/s41598-026-40797-9

Mots-clés: transmission sécurisée des données, classification de texte, chiffrement à clé publique, nombres premiers de Ramanujan, authentification HMAC