L’ADN au secours de la donnée

Frédéric Jehl , Analyste Deeptech | Rabindra Rengaradjalou , Ingénieur Conseil Télécoms, IT & Semi-conducteurs

Publié le 22 févr. 2022 - Mis à jour le 8 juil. 2024

Zettaoctet. Cette unité, qui correspond à 1 milliard de téraoctets(1), est utilisée pour quantifier le volume de données informatiques produites par l’humanité chaque année : en 2025, 180 zettaoctets devraient être générés(2). Si ce nombre donne le vertige tant il est difficile de le conceptualiser, il pose un problème très concret : le stockage de toutes ces données.

Le stockage de données, un défi à l’échelle de l’humanité

Face à cet afflux de données, les infrastructures de stockage font en effet face à trois grands challenges : les limites physiques quant à la densité de données qui peuvent être stockées sur un support ; les coûts de maintenance et de remplacement du matériel, qui ne peuvent que croître avec le nombre de supports et l’évolution des technologies ; et la consommation d’énergie des data centers, qui représentait environ 1% de la consommation mondiale d’électricité en 2020. Les dernières prévisions suggèrent que cette consommation énergétique devrait se maintenir entre 1% et 2% de la consommation énergétique globale en 2030, grâce notamment aux progrès réalisés dans le domaine de l’énergie et à l’amélioration constante des équipements et des data centers.

En revanche, certains analystes s’attendent à observer une hausse de la demande de supports de stockage bien plus rapide que l’offre. Cette hypothèse conduirait en 2030 à une offre de supports de stockage ne couvrant qu’environ un tiers de la demande. Or, l’effacement des données paraît encore pour beaucoup inenvisageable pour des raisons parfois légales, mais aussi parce qu’il est tout à fait crédible que s’y cachent encore des résultats à ré-analyser et des découvertes à faire. Dès lors, quelles solutions s’offrent à l’humanité pour stocker ses données ?

La biologie à la rescousse

Au risque de tomber dans le cliché, nous répondrons en disant qu’une solution est en nous, et l’a toujours été : il s’agit de l’ADN. Nichée au cœur de la plupart de nos cellules, la molécule d’ADN est en effet le support d’information du vivant par excellence.

L’ADN ne consomme pas d’énergie par elle-même et est remarquablement stable lorsqu’elle est bien conservée : le plus vieil échantillon connu à ce jour date d’il y a environ 1,5 million d’années. De plus, l’ADN permet de stocker une grande quantité d’informations dans un très faible volume. Mais comment s’y prendrait-on pour stocker un fichier sur un support ADN ?

Stocker des données sur de l’ADN : mode d’emploi

Concrètement, l’information constituant le fichier, aujourd’hui stockée sous forme de 0 et de 1⁽³⁾ sur un support, serait convertie en A, T, C ou G, les quatre nucléotides composant l’ADN.

Cette conversion pourrait d’ailleurs se faire en considérant que, par exemple, A ou T correspondent à 1 (et C ou G à 0), ou mieux, que chaque nucléotide correspond à une combinaison de 2 bits : A serait 00, T serait 01, etc., ce qui permettrait d’augmenter la densité d’informations stockées.

La production de cet ADN synthétique, puis son séquençage lorsqu’il faudra « lire » les données qui y sont stockées, sont aujourd’hui des étapes triviales dont les coûts ont très fortement diminué ces dernières années. Alors qu’en 2003, le premier séquençage du génome humain a coûté 3 milliards de dollars, la facture s’élève aujourd’hui à moins de 1 000 dollars par génome.

Pour le stockage, le seul impératif est de conserver les molécules d’ADN dans un support – par exemple, une capsule – avec le moins d’humidité possible. Les « données » pourraient ainsi être laissées à température ambiante sans risque de dégradation pour quelques dizaines de milliers d’années au moins.

La contrainte de ce stockage qui isole les données dans une capsule est bien sûr l’accessibilité rapide aux données stockées. Tant que cette contrainte se fera sentir, le stockage sur ADN ne sera adapté qu’au stockage dit « froid », pour des données qui n’ont pas vocation à être lues ou modifiées régulièrement à moyen terme. Les données de ce type représenteraient tout de même 60% des données existantes, part qui est vouée à augmenter à l’avenir.

Un domaine émergent, mais de grands donneurs d’ordres sur les rangs

Plusieurs organismes de recherche et entreprises s’intéressent au stockage sur ADN. Aux États-Unis, la DARPA⁽⁴⁾ et, son pendant dans le renseignement, l’IARPA⁽⁵⁾, mènent un projet visant à développer de nouvelles technologies de stockage d’information. Dans le cadre de ce projet, un financement a d’ailleurs été accordé à la start-up française DNA Script, qui synthétise des molécules d’ADN.

Du côté des entreprises, citons Microsoft, mais aussi Twist Bioscience ou encore Catalog DNA. En Europe, l’Allemagne, l’Irlande, mais également le Royaume-Uni, qui peut compter sur la présence du European Bioinformatics Institute, s’intéresseraient à ce sujet.
Enfin, en France, en plus de DNA Script, citons Biomemory qui a récemment offert aux Archives nationales deux capsules contenant la Déclaration des droits de l’homme et du citoyen de 1789 et la Déclaration des droits de la femme et de la citoyenne de 1791.

Si le chemin est encore long pour cette technologie à peine sortie des laboratoires de recherche, son impact sur le bien précieux qu’est « la donnée » en fait un sujet deeptech à surveiller de près.

Frédéric Jehl, Analyste Deeptech avec la contribution de Rabindra Rengaradjalou, Ingénieur Conseil Télécoms, IT & Semi-conducteurs

N. B.

⁽¹⁾ 1 téraoctet permet de stocker 250 films de 2 heures, ou 6,5 millions de pages de PDF.
⁽²⁾ Sur la base d’une croissance annuelle moyenne du volume des données informatiques de 23% entre 2020 et 2025.
⁽³⁾ Les fameux bits
⁽⁴⁾ Defense Advanced Research Projects Agency
⁽⁵⁾ Intelligence Advanced Research Projects Activity