100 pétaoctets sur la route, la solution Snowmobile (2018)

English

À l’heure du Big Data, des mégadonnées, si vous avez des exaoctets à transférer vers le nuage, avez-vous pensé au Snowmobile ? Non, nous ne parlons pas de motoneige… bien que ce soit la saison.

L’exaoctet est une unité encore peu courante, mais avec l’explosion des données numériques, vous risquez de la croiser plus souvent. Elle représente un million de téraoctets, soit la bagatelle d’un milliard de gigaoctets.

Sans aller jusqu’à l’exaoctet, le problème qu’affrontent les entreprises qui disposent de très gros volumes de données est de les transférer dans le nuage. La capacité du réseau est tout à fait insuffisante pour réussir de tels transferts dans un temps et des coûts raisonnables. Le déménagement via Internet des archives vidéo d’un studio ou de la bibliothèque d’une entreprise d’imagerie par satellite peut prendre des mois, voire des années. Il faut savoir qu’une connexion Fast Ethernet à 100 mégabits par seconde demande plus de 24 heures pour transférer un téraoctet (1 000 Go).

Amazon a proposé en 2016 une solution qui avait sur le moment tout l’air d’un coup publicitaire : le Snowmobile. Il s’agit d’envoyer chez le client un conteneur de 45 pieds, pesant 4 tonnes, bourré de serveurs et se déplaçant sur un camion à 18 roues, une opération qui donne un sens plus concret et asphalté à l’image de l’autoroute de l’information.

Snowmobile, AWS.

Pour déménager un exaoctet (1 000 pétaoctets), il vous faudra cependant 10 voyages en Snowmobile, car la capacité est limitée à 100 pétaoctets, excusez du peu. Mais ça suffirait quand même à déménager deux copies de la Petabox d’Internet Archive qui occupe 50 pétaoctets, opération qui prendrait 28 ans et 7 mois sur une liaison fibre a 1 000 mégabits par seconde (et 51 siècles avec un modem 56 kb/s du siècle dernier…). Impressionnant !

On peut voir ce service comme une version bien plus musclée du Snowball où AWS envoie chez vous un robuste serveur tenant dans une caisse grise, pesant plus de 20 kilos, et qui peut stocker 50 téraoctets. Pour comparer, le Snowmobile a la capacité de stockage de 2 000 Snowball 50 To… Si vous avez pensé comme moi que le Snowmobile n’était qu’une opération de relations publiques d’Amazon pour avoir d’innombrables retombées presse gratuites sur AWS dans le monde, ce n’est pas tout à fait le cas, en tout cas pas seulement. C’est un vrai service, réellement utilisé par des entreprises, qui répond à de vrais besoins (encore certes rares, on vous l’accorde).

Snowball, AWS.

Prenons l’exemple de DigitalGlobe, une entreprise américaine spécialisée dans l’imagerie satellitaire. Elle a accumulé depuis 17 ans d’activité plus de 100 pétaoctets d’images de la surface de notre planète, et chaque année, sa constellation de satellites commerciaux génère plus de 10 nouveaux pétaoctets de données. Longtemps, DigitalGlobe a archivé ses images sur des bandes et envoyait les commandes de ses clients par FTP ou par expédition de disque dur par transporteur. C’était un processus lourd, demandant plusieurs heures pour le traitement d’une commande. L’entreprise a donc fait le choix de basculer sa gigantesque bibliothèque sur le nuage, celui d’Amazon en l’occurrence, pour offrir un service plus rapide et moderne à sa clientèle.

L’année dernière, un Snowmobile est donc venu au siège social de DigitalGlobe dans le Colorado et l’entreprise a pu effectuer en quelques semaines le transfert de 54 millions d’images de très haute résolution. L’opération a permis de rendre disponibles en ligne toutes les images de la bibliothèque. Pour maintenir la bibliothèque parfaitement à jour, les 80 à 100 téraoctets de données venues quotidiennement de l’espace sont transférés en ligne vers Amazon S3.

Notons que depuis, DigitalGlobe a fait appel à Amazon SageMaker, la plateforme d’apprentissage machine, afin de pouvoir transférer automatiquement de S3 vers Amazon Glacier les images qui sont, selon l’algorithme d’intelligence artificielle, les moins susceptibles d’être commandées. Glacier est un service qui coûte 5 fois moins cher en frais de stockage que S3, mais dont les temps d’accès plus longs (3 à 5 heures pour recevoir le fichier demandé). Par cette formule, l’entreprise peut diviser par deux son coût de nuage sans vraiment nuire à la qualité de service, car toutes les images qui ont un certain potentiel commercial restent disponibles immédiatement. Avoir recours à l’intelligence artificielle pour répartir ses données entre différents types de stockage, aux performances et coûts différents, peut s’avérer une stratégie gagnante pour de nombreuses entreprises, même si le volume de données est bien moins considérable que celui de DigitalGlobe. Le stockage d’un pétaoctet sur S3 coûte 293 568 USD par an. Diviser la facture par deux n’a rien de négligeable.

Si l’on observe l’offre d’AWS, il y a un grand fossé entre les 50 To du Snowball et les 100 Po du Snowmobile. On pourrait sans doute imaginer des solutions intermédiaires pouvant toucher un plus grand nombre d’entreprises. Et pourquoi pas dans le futur pas si lointain, des véhicules autonomes se déplaçant entre les clients et les centres de données. Comme quoi nos bons vieux rubans d’asphalte ont encore de l’avenir dans la société numérique…

En route pour le nuage ! © iStock.
En route pour le nuage ! © iStock.

100 petabytes on the asphalt superhighway: the Snowmobile solution

In the era of Big Data and megadata, consider Snowmobile, a most seasonable solution next time you need to transfer a couple of exabytes to the cloud.

Exabytes are still a rare order of magnitude, but with the explosion of digital data, we’re likely to come across them increasingly often. An exabyte is an eye-goggling one million terabytes, also known as one billion gigabytes.

But you don’t need to have exabytes of data to experience problems transferring files to the cloud. Even companies with moderately large volumes of data are discovering that the available network capacity just isn’t up to transferring megadata within reasonable cost- and time parameters. For example, moving the video archive of a satellite imagery company over the Internet can take months, if not years, when a 100 megabit per second Fast Ethernet connection can only transfer 1 terabyte of data (1,000 GB) per 24 hours.

In 2016, Amazon offered a solution that looked like a good, old-fashioned publicity stunt: the Snowmobile, a 45-foot, 4-tonne container piled with servers and hauled on an 18-wheeler. The behemoth would show up at your door to load and haul away your data, in an operation that very concretely illustrated the meaning of the information superhighway.

Snowmobile, AWS.

But you’d need no less than 10 Snowmobile trips to move one exabyte of data because its capacity is a paltry 100 petabytes. Even so, it would still be able to move two copies of Internet Archive’s 50-petabyte Petabox, an operation that would take 28 years and 7 months on a 1,000-megabit per second fibre optic cable (and 5,101 years on a 20th-century, 56 kb/s modem)!

The Snowmobile is a souped-up version of the Snowball, the AWS server in a grey box weighing over 20 kilos and able to store 50 terabytes of data. The Snowmobile has the storage capacity of 2,000 50-TB Snowballs! If, like me, you thought that the Snowmobile was nothing more than an Amazon PR scheme to raise AWS’s profile in worldwide media, you’d be mistaken. Well, it is that, but much more besides: it’s an actual service used by large corporations to meet a real, if fledgling, need.

Snowball, AWS.

Take for example DigitalGlobe, an American company specializing in satellite imagery. Over its 17 years of operations, it has gathered over 100 petabytes of images of our planet’s surface. Every year, its constellation of commercial satellites gathers 10 petabytes more data. Until recently, DigitalGlobe archived its images on tapes and sent out orders to clients in FTP format or on hard drives by courier--a cumbersome process that required several hours of handling.

The company decided to upload its enormous library on Amazon’s cloud to provide a faster, more competitive service to its customers. Therefore last year, a Snowmobile parked at DigitalGlobe’s headquarters in Colorado, transferring 54 million high-resolution images in just a few weeks and making the entire library of images available online. And, to keep the library always up-to-date, the 80 to 100 terabytes of new data produced every day are transferred online to Amazon S3 on a daily basis.

The company decided to upload its enormous library on Amazon’s cloud to provide a faster, more competitive service to its customers. Therefore last year, a Snowmobile parked at DigitalGlobe’s headquarters in Colorado, transferring 54 million high-resolution images in just a few weeks and making the entire library of images available online. And, to keep the library always up-to-date, the 80 to 100 terabytes of new data produced every day are transferred online to Amazon S3 on a daily basis.

Since then, DigitalGlobe has called on Amazon SageMaker, a machine learning platform, to automatically transfer from S3 to Amazon Glacier any images which, according to an artificial intelligence algorithm, are less likely to be requested. Glacier is a storage service that charges one-fifth of the S3 storage fees; the flip side is that it takes 3 to 5 hours to receive files stored on Glacier. Even so, this service has allowed DigitalGlobe to halve its cloud-related costs without compromising quality of service, because the images that are most likely to be ordered remain immediately available from S3. Using artificial intelligence to spread data over various types of storage with different performance and cost parameters can be a winning strategy for many companies, even for lower data volumes than DigitalGlobe’s. When storing one petabyte of data on S3 costs 293,568 USD per year, halving the bill makes a difference.

The odd thing about AWS’s offering is the yawning gap between Snowball’s 50 TB and Snowmobile’s 100 PB. Let’s hope that sooner or later, a compromise solution might be offered to benefit more companies. Who knows: maybe in the not-so-distant future, driverless cars will be plying the roads between client and data locations? So there still seems to be a role for the asphalt superhighway in the digital economy!

En route pour le nuage ! © iStock.
On the road to the cloud! © iStock.