Clear Sky Science · fr
Comparaison des codes de correction d’erreurs de pointe pour le stockage de données sur ADN basé sur des séquences
Stocker les données de demain sur le disque dur de la nature
Imaginez pouvoir faire tenir toutes les données mondiales dans un objet que vous pourriez tenir dans la main. L’ADN, la molécule qui encode l’information génétique des organismes, peut en principe contenir des millions de fois plus de données par gramme que les disques durs actuels. Mais transformer des films, des photos et des archives en brins d’ADN puis les relire parfaitement est complexe. Cette étude pose une question pratique : avec les technologies et logiciels disponibles aujourd’hui, à quel point sommes‑nous proches d’utiliser l’ADN comme coffre‑fort de données, et quelles méthodes de « traduction » numérique fonctionnent le mieux ?

Comment des fichiers numériques deviennent de l’ADN
Pour sauvegarder des données dans l’ADN, il faut convertir les bits informatiques en une séquence des quatre bases de l’ADN, faire fabriquer cette séquence en laboratoire, la stocker, puis la relire avec des séquenceurs. En chemin, beaucoup de choses peuvent mal tourner : certains brins d’ADN disparaissent complètement, d’autres acquièrent des lettres en trop ou en moins, et d’autres encore sont copiés de façon inégale de sorte que certaines séquences deviennent sur‑représentées tandis que d’autres sont rares. Pour faire face à cela, les chercheurs conçoivent des logiciels encodeur‑décodeur, appelés codecs, qui ajoutent de la redondance — des informations supplémentaires permettant de corriger les erreurs et de récupérer les morceaux manquants. Les auteurs ont sélectionné six codecs bien connus de la littérature et les ont standardisés pour pouvoir les comparer équitablement dans les mêmes conditions.
Tester la mémoire ADN dans l’ordinateur
L’équipe a d’abord réalisé des simulations informatiques exhaustives pour mesurer la résistance de chaque codec à différents types de dégâts. Ils ont simulé des millions de courts fragments d’ADN, chacun portant un fragment d’un fichier test, puis introduit aléatoirement des substitutions, des lettres manquantes, des lettres supplémentaires, ou même la suppression de séquences entières. En répétant ces expériences de nombreuses fois, ils ont déterminé les taux maximaux d’erreur et de perte auxquels chaque codec pouvait encore récupérer le fichier avec une grande fiabilité. Une étape clé a été le « clustering » des nombreuses copies bruitées de chaque brin d’ADN et leur fusion en une séquence de consensus plus propre avant décodage. Cette astuce simple a à peu près doublé la tolérance aux erreurs et a aussi accéléré le décodage, car les codecs avaient moins de séquences mais de meilleure qualité à traiter.
Des laboratoires propres à une réalité plus chaotique
Les systèmes réels de stockage sur ADN varient considérablement dans la synthèse et la manipulation de l’ADN, aussi les auteurs ont modélisé deux flux de travail pratiques. Une voie « haute fidélité » utilisait une imprimante ADN commerciale moderne et des enzymes de copie précises, produisant des taux d’erreur bas et peu de perte de brins. Une voie « basse fidélité » utilisait une méthode de synthèse moins chère et plus sujette aux erreurs ainsi qu’une étape de copie plus rugueuse, introduisant davantage de fautes et de brins manquants. Dans chaque voie, ils ont fait varier le nombre de copies physiques stockées et la profondeur de séquençage, révélant un compromis entre densité de stockage, coût de séquençage et fiabilité. Certains codecs géraient très bien les erreurs de lettres aléatoires mais échouaient quand de nombreux brins entiers manquaient ; d’autres étaient mieux équilibrés. Trois approches — DNA‑Aeon, DNA‑RS et une méthode basée sur graphe appelée DBGPS (testée in silico) — sont apparues comme les plus robustes face aux deux types d’erreurs.

Repousser les limites du stockage sur ADN
Pour s’assurer que les simulations reflétaient la réalité, les chercheurs ont réalisé des expériences de laboratoire suivant les flux de travail haute et basse fidélité, en utilisant deux technologies commerciales de synthèse d’ADN. Ils ont encodé de petits fichiers image en plus de 11 000 séquences d’ADN avec les six codecs, puis amplifié, dilué et reséquencé les pools. Après avoir artificiellement limité la profondeur de séquençage pour refléter des budgets de lecture réalistes, ils ont testé si les fichiers originaux pouvaient encore être décodés. Les meilleurs codecs ont réussi à récupérer les données à des densités de stockage d’environ 43 exaoctets (milliard de gigaoctets) par gramme d’ADN avec le flux de travail de haute qualité, et d’environ 13 exaoctets par gramme avec le flux de travail de moindre qualité — nettement supérieurs aux records expérimentaux précédents et à environ un ordre de grandeur de la limite théorique.
Ce que cela signifie pour les archives ADN du futur
L’étude montre que les méthodes actuelles de correction d’erreurs pour le stockage de données sur ADN sont déjà étonnamment mûres. Avec des codecs et des flux de travail soigneusement choisis, il est possible de stocker des données à des densités extrêmes tout en tolérant des erreurs significatives et des pertes de brins. Elle souligne aussi que des tests simples, comme ne compter que le nombre de bits additionnels qu’un codec ajoute ou exécuter des simulations d’erreurs simplistes, peuvent être trompeurs ; des benchmarks réalistes doivent prendre en compte à la fois les brins manquants et les erreurs au niveau des lettres, et devraient se comparer à des méthodes de pointe éprouvées. Pour les non‑spécialistes, le message est clair : l’ADN n’est plus seulement une idée futuriste pour stocker l’information. La machinerie logicielle nécessaire pour lire et écrire des archives ADN fiables est en place, et les progrès futurs viendront de l’affinement des méthodes de laboratoire et de la montée en échelle, plutôt que de l’invention de codes entièrement nouveaux.
Citation: Gimpel, A.L., Remschak, A., Stark, W.J. et al. Comparison of state-of-the-art error-correction coding for sequence-based DNA data storage. Nat Commun 17, 3963 (2026). https://doi.org/10.1038/s41467-026-70548-3
Mots-clés: Stockage de données sur ADN, correction d'erreurs, densité de données, théorie du codage, biologie synthétique