L’ADN, prochain média de stockage pour le “Big Data” ? (2018)

English

L’ADN synthétique est durable et peut encoder des données numériques à haute densité, ce qui en fait un support attrayant pour le stockage à long terme. Microsoft est le fer de lance de la recherche sur cette technologie d’avant-garde.

Présente dans toutes les cellules des espèces vivantes, la « macromolécule » d’ADN stocke toutes les données génétiques relatives à la vie. Son existence a été découverte en 1869 par le scientifique suisse Friedrich Miescher. La structure à doubles hélices a été démontrée quant à elle pour la première fois en 1953 dans un célèbre article de la revue Nature. Depuis, de nombreux travaux de recherche ont illustré la complexité de l’information stockée dans l’ADN. Le génome humain, par exemple, compte à lui seul plus de 3 milliards de paires de bases. Son déchiffrement complet ne remonte d’ailleurs qu’à un peu moins d’une vingtaine d’années.

De nombreuses applications possibles

Il ne fallait qu’un pas pour que des chercheurs s’intéressent à l’ADN d’un point de vue informatique, notamment en ce qui concerne la capacité de stockage, mais aussi la structure des données. La bio-informatique s’attarde donc à cette masse de données, à son organisation, mais aussi aux procédés de stockage qui rendent l’information accessible à toutes les cellules vivantes.

Les applications concrètes de la réplication de cette structure pourraient être nombreuses, entre autres pour les bases de données, les moteurs de recherches, et enfin pour le nuage, dont l’organisation « organique » présente de nombreuses similitudes avec la biologie des êtres vivants : quantités impressionnantes de données, interconnexions complexes, etc.

Plusieurs équipes de chercheurs dans le monde s’intéressent spécifiquement à la capacité de stockage de l’ADN. Entre autres, des équipes de chez Microsoft, qui y voient diverses applications pour le nuage. En juillet 2016, Microsoft avait fait les manchettes en annonçant avoir stocké 200 mégaoctets de données dans de l’ADN, dont une vidéo musicale !

“Microsoft and University of Washington DNA Storage Research Project” (2016) :

Un stockage (pratiquement) infini

Des recherches ont permis de démontrer qu’il est théoriquement possible de stocker un quintillion d’octets (1 018, 1 000 000 000 000 000 000) de données par millimètre cube d’ADN. L’ampleur et l’échelle de ce nombre sont au-delà de l’entendement humain !

L’année dernière, une équipe conjointe du New York Genome Center et de l’Université Columbia a obtenu une capacité de stockage réelle de 215 pétaoctets par gramme d’ADN. À titre de comparaison, tous les films produits depuis le début de l’histoire du cinéma, s’ils étaient stockés numériquement dans de l’ADN, tiendraient dans un peu moins que la taille d’un cube de sucre.

« L’ADN est le médium de stockage connu le plus dense de l’univers, selon les lois de la physique. C’est pour cette raison que les chercheurs s’y intéressent » affirme Victor Zhirnov, scientifique en chef pour le Semiconductor Research Corporation, un institut de recherche américain. Alors pourquoi l’ADN attire-t-il les firmes telles que Microsoft ou Intel ? C’est qu’alors que les limites physiques de stockage des supports actuels ont probablement presque atteint leur limite, ces recherches prennent tout leur sens dans un contexte d’explosion du « big data » tel qu’on le connaît à l’heure actuelle.

Fabriquer de l’ADN

Comment ça fonctionne ? Pour la fabrication, Microsoft fait affaire avec Twist Bioscience, une compagnie de biotechnologie située à San Francisco. Les États-Unis accueillent de nombreuses start-up du même genre, qui manufacturent de l’ADN ou essaient d’en améliorer la fabrication.

Depuis près de 40 ans, il est en effet possible de créer de l’ADN à partir d’un processus de synthèse chimique qui lie des acides nucléiques individuels en brins plus longs. Toutefois, certaines des entreprises dans ce domaine souhaiteraient révolutionner ce processus fastidieux et sujet à l’erreur. La principale percée pourrait venir d’une fabrication à partir d’enzymes, comme pour le code génétique chez les humains.

Oublier les 0 et les 1

La complexité vient du procédé d’encodage relatif à la biogénétique. Les données doivent être converties en code spécifique à l’ADN, soit des chaînes de nucléotides : les fameux A, G, C et T. Ce processus d’encodage rend l’exercice long, complexe et coûteux à l’heure actuelle et il s’agit du principal frein pour le moment.

La manière d’encoder l’ADN devra de plus être automatisée et accélérée… Selon Doug Carmean, un architecte chez Microsoft Research, l’entreprise réussit maintenant à le faire à une vitesse d’environ 400 octets par seconde. Mais pour que l’option devienne viable, c’est plutôt 100 mégaoctets par secondes qui devraient être atteintes.

Microsoft estime également que le coût actuel du stockage dans l’ADN devrait être réduit par 10 000 avant de devenir assez compétitif pour favoriser son adoption. Cette étrange technologie s’appuyant sur les mêmes molécules que celles de nos gènes n’est donc pas à la veille d’être dans nos ordinateurs.

Néanmoins, le géant souhaite avoir un système de stockage opérationnel basé sur ADN dans un de ses centres de données d’ici la fin de la décennie. Ce système, toujours selon Carmean, pourrait ressembler à « un gros photocopieur Xerox des années 70 ».

Un matériau ultra-durable

Divers experts en semiconducteurs ont déjà présumé que l’ADN serait un matériel « trop mou » pour être considéré comme médium de stockage… Mais dans les faits, l’ADN peut durer entre 100 et 1 000 fois plus longtemps que les dispositifs actuels ! Et l’information est tellement durable et stable qu’elle peut encore être récupérée et lue sur les restes d’êtres vivants vieux de dizaines de milliers d’années, ayant résisté aux ères de glaciations et autres catastrophes naturelles. Pourra-t-on en dire autant de nos actuels supports magnétiques, y compris les bandes encore utilisées en entreprise pour effectuer des sauvegardes informatiques ?

L’ADN synthétique est durable et peut encoder des données numériques à haute densité, ce qui en fait un support attrayant pour le stockage à long terme de données. Mais pour récupérer des données stockées à grande échelle, il faut actuellement que tout l’ADN d’un pool soit séquencé, même si seul un sous-ensemble de l’information doit être extrait. Toutefois, Microsoft a annoncé en février dernier avoir été en mesure de coder et stocker 35 fichiers distincts (plus de 200 Mo de données) dans plus de 13 millions d’oligonucléotides d’ADN, et de pouvoir récupérer chaque fichier individuellement et sans erreurs en utilisant une approche d’accès aléatoire.

Le temps nous dira si d’ici la fin de la décennie nous stockerons nos fichiers encodés en bases nucléiques, mais à l’ère de l’informatique quantique, plus rien ne devrait nous étonner.


DNA, the next storage medium for Big Data?

Synthetic DNA is durable and can encode high density digital data, making it an attractive medium for long-term data storage. Microsoft is spearheading research into this cutting-edge technology.

Present in all cells of living species, the DNA “macromolecule” stores all genetic data relating to life. Its existence was discovered in 1869 by Swiss scientist Friedrich Miescher. The double helix structure was first illustrated in 1953 in a landmark article in the journal Nature. Since then, many research studies have revealed the complexity of the information stored in DNA. For example, the human genome alone has over 3 billion base pairs, and was only completely decoded barely twenty years ago.

Many potential applications

It was a small step for researchers to take an interest in DNA for computer applications, not only in terms of storage capacity, but also of data structure. Bioinformatics is the study of this mass of data and its organization, as well as the storage processes that make information accessible to all living cells.

The replication of this structure could have numerous concrete applications, among others for databases, search engines, and for the cloud, whose “organic” organization has many similarities with the biology of living beings: impressive quantities of data, complex interconnections, etc.

Several research teams around the world are specifically interested in DNA storage capacity. For example, teams at Microsoft see various applications for the cloud. In July 2016, Microsoft made headlines when it announced it had stored 200 megabytes of data in DNA, including a music video!

“Microsoft and University of Washington DNA Storage Research Project” (2016):

(Virtually) infinite storage

Research has shown that it is theoretically possible to store one quintillion bytes (1018, 1,000,000,000,000,000,000) of data per cubic millimetre of DNA. The magnitude and scale of this number are hard to grasp!

Last year, a joint team from the New York Genome Center and Columbia University obtained an actual storage capacity of 215 petabytes per gram of DNA. By way of comparison, all films produced since the beginning of film history, if stored digitally in DNA, would fit in a little less than the size of a sugar cube.

"DNA is the densest known storage medium in the universe, according to the laws of physics. That’s why researchers are interested,” says Victor Zhirnov, chief scientist for the Semiconductor Research Corporation, an American research institute. No wonder that DNA intrigues companies like Microsoft or Intel: this research seems to be the solution to humanity’s storage capacity woes, as current media reaches its limit just as “big data” explodes.

Making DNA — How does it work?

Microsoft has partnered up with Twist Bioscience, a San Francisco-based biotechnology company. The United States is home to many such start-ups that fabricate DNA or try to improve its production.

For nearly 40 years, it has been possible to create DNA from a chemical synthesis process that binds individual nucleic acids into longer strands. However, companies in this field would like to improve this tedious and error-prone process. The main breakthrough could come from enzyme-based biotechnology, as we’re seeing with the genetic code of humans.

Forget the 0’s and 1’s

The problem is the encoding process related to biogenetics. The data must be converted into DNA-specific code, known as nucleotide chains — the famous A, G, C and T. This process of encoding is long, complex and costly, which is the main hindrance at the moment.

The encoding of DNA will have to be automated and accelerated. According to Doug Carmean, an architect at Microsoft Research, the company is currently able to do this at a speed of about 400 bytes per second. But for the process to be viable, it should be at 100 megabytes per second.

Microsoft also estimates that the current cost of DNA storage must be reduced 10,000-fold before it becomes competitive enough to be popular. In other words, this strange new technology based on the same molecules as those in our genes is not about to find its way onto our computers.

Nevertheless, the tech giant wants to have an operational DNA-based storage system in one of its data centres by the end of the decade. This system, according to Carmean, could look like “a big Xerox copier from the 1970s”.

An ultra-durable material

Various semiconductor experts thought that DNA would be “too soft” to be considered as a storage medium, when in fact, DNA can last between 100 and 1,000 times longer than current storage devices! And the information is so durable and stable that, having withstood ice ages and other natural disasters, it can still be retrieved and read from the remains of organisms tens of thousands of years old. Can the same be said about our current magnetic media, including tapes still used by companies to perform computer backups?

Synthetic DNA is durable and can encode digital data very densely, making it an attractive medium for long-term data storage. However, to recover stored data on a large scale, all the DNA in a given pool must be sequenced, even if only a subset of the information will be extracted. Microsoft announced last February that it was able to code and store 35 separate files (over 200 MB of data) in more than 13 million DNA oligonucleotides, then recover each file individually and without any errors using a random-access approach.

Time will tell if, by the end of the decade, we store our files encoded in nucleic bases. In the age of quantum computing, nothing should surprise us anymore.