Qu’est-ce que le Big Data ? (2018)

English

On parle partout du Big Data (ou des “mégadonnées” en français). Tout le monde s’y intéresse, on présente ses succès et il y a parfois même un peu de magie autour. La réalité est plus prosaïque, il s’agit de gérer des volumes de données variées sans cesse croissants et de savoir les exploiter pour en tirer des enseignements profitables qui justifieraient l’investissement.

Le concept de Big Data est né dans les années 1990, alors que les entreprises commençaient à être envahies d’actifs numériques de plus en plus volumineux, et il s’est précisé au début des années 2000. C’est Doug Laney, un analyste de Meta Group (entreprise achetée par Gartner en 2005), qui a trouvé fameuse définition des trois V désormais omniprésente : les mégadonnées sont caractérisées par leur volume, leur vélocité et leur variété.

Le volume

La production de données s’emballe partout. De plus en plus de technologies produisent de l’information sous forme numérique et les systèmes de stockages sont de moins en moins coûteux, toujours plus rapides et de capacité plus grande. Ce qui fait que les entreprises qui voient l’information comme une potentielle source de valeur hésitent à jeter ces enregistrements et les accumulent.

En 1998, IBM lançait le disque dur Deskstar 25GP d’une capacité de 25 gigaoctets, le plus gros disque pour PC de l’époque, qui coûtait alors dans les 200 $ US (510 $ de 2018). Aujourd’hui, le disque de 1 téraoctet (1 000 gigaoctets) se détaille autour de 50 $. La même capacité de stockage en 1998 aurait nécessité 40 disques durs Deskstar et un investissement de 20 400 $. En l’espace de 20 ans, le prix du gigaoctet est donc passé de 20,5 à 0,05 $.

Pour des raisons de coûts, les entreprises des années 1990 se montraient parcimonieuses quant au choix des données à stocker. Aujourd’hui, et encore moins demain, les coûts de stockages ne sont plus un obstacle et les entreprises ne se privent plus de conserver des gros volumes de données, sans toujours d’ailleurs savoir si ces données seront d’une quelconque utilité. De plus, avec la révolution numérique, les entreprises comme les individus (avec les objets connectés, le web, les apps mobiles, etc.) produisent de plus en plus de données. La croissance du volume est exponentielle.

La vélocité

Les flux de données produites sont de plus en plus larges et rapides, et les moyens de calcul modernes permettent de les traiter en temps réel la plupart du temps. Grâce à l’Internet, aux réseaux locaux sans fil, aux réseaux de téléphonie mobile et aux réseaux dédiés à l’IoT, c’est un torrent continu de données qui circule entre les capteurs et les systèmes chargés de stocker et d’analyser. Grâce aux processeurs sans cesse plus puissants, ces données peuvent être analysées rapidement afin d’en extraire des informations pertinentes.

Par exemple, vous pouviez avoir auparavant un système chargé de monitorer une machine de production, dont les données produites étaient stockées en local et envoyées périodiquement au système de traitement sur support physique. Aujourd’hui, le moindre capteur peut avoir un lien direct et instantané avec le monde entier. L’information est créée, stockée et traitée en un instant.

La variété

Les producteurs de données étant de plus en plus variés et ubiquistes, les données qu’ils fournissent sont également d’une très grande variété de formats et de structurations. Textes, images, fichiers audio, vidéos, données structurées et non structurées, etc., dans des formats divers et pas nécessairement normalisés s’accumulent dans l’océan du Big Data.

L’usage des mégadonnées

Les mégadonnées ne servent à pas grand-chose sans outils d’analyse et de découverte appropriés. Ces outils doivent faire avec les 3 V qui sont des contraintes. Ils doivent pouvoir traiter de gros volumes, le faire rapidement et être en mesure d’analyser une grande variété de données. L’objectif ultime est de permettre aux entreprises de créer de la valeur, d’optimiser les processus, et d’obtenir un avantage compétitif déterminant en transformant les mégadonnées accumulées en informations stratégiques. Ce peut être par exemple la détection de tendances qui resteraient en temps normal un certain moment occultées, détection avancée qui permet d’agir plus rapidement et de façon plus éclairée. Ou encore, ce peut être alimenté des modèles prédictifs qui peuvent anticiper la réaction du marché à une nouvelle offre et s’assurer de son succès.

Aujourd’hui, les outils d’analyse font des progrès rapides grâce à l’intelligence artificielle, et notamment l’apprentissage profond, qui permet de faire face à la variabilité des données. Quand le corpus est hétérogène, c’est l’IA qui est capable d’extraire du sens de fichiers audio et vidéo, de reconnaître des images, de traduire des textes, de structurer des données brutes, de tisser des liens sémantiques entre des données disjointes, de détecter des motifs et des corrélations subtiles, de résoudre des inconsistances, etc.

Notez que le principal obstacle rencontré dans les projets Big Data est la qualité des données. Si vous fournissez de mauvaises données (erronées, parcellaires, structurées de façon incohérente), le meilleur système d’intelligence artificielle ne pourra pas en faire grand-chose et au pire, produira des analyses fautives.


What exactly is Big Data?

Big Data is what everyone’s talking about. Its long list of successes has us enthralled. But the reality is far more prosaic: Big Data is simply the science of managing huge (and growing) volumes of varied data and mining them to extract information valuable enough to make it cost-effective.

The concept of Big Data was born in the 1990s, when major enterprises started to acquire ever-larger information assets, but it crystallized in the early 2000s. Doug Laney, an analyst at Meta Group (bought out by Gartner in 2005), coined the generally accepted three-V definition of Big Data: high volume, velocity and variety.

Volume

Data production is exploding across the board. Digital information is being produced by an increasing number of technologies, while storage solutions are getting cheaper, faster and larger. Companies that recognize information as a potential source of value hate to throw out any of it and choose to store it for future use.

In 1998, IBM launched the Deskstar 25GP hard drive, with a 25GB capacity, the largest at the time for PCs. It cost about US$200 (US$510 in 2018 dollars). Today, a 1-terabyte drive (i.e. 1,000GB) sells for US$50. This amount of storage in 1998 would have required 40 Deskstar drives and an outlay of US$20,400. In just 20 years, the price of 1 GB has dropped from US$20.50 to US$0.05.

In the 1990s, due to its cost, companies chose the frugal approach to data storage. Today (not to mention tomorrow), cost is no longer an issue, and companies are keeping everything, regardless of whether it may ever come in handy. And thanks to the digital revolution and attendant connected objects (the Web, mobile apps, etc.), enterprises and individuals are producing ever more data. In fact, data production is growing at an exponential rate.

Velocity

Data flows are larger and faster than ever, and modern computational methods allow for real-time processing in most situations. Thanks to the Internet, to wireless local networks, to mobile phone networks and to IoT-dedicated networks, a flood of data is flowing from sensors to data storage and analysis systems. Thanks to increasingly powerful processors, this data can be swiftly analyzed and useful information extracted almost instantaneously.

For example, in the past, a monitoring system for manufacturing machinery would produce data that was locally stored and periodically transferred to a processing system on some sort of physical medium. Today, this same monitoring system is equipped with a sensor that can be directly and continuously connected to the whole world. The information is produced, stored and processed in the blink of an eye.

Variety

As data-producing devices become more varied and ubiquitous, the data they produce is also more varied, in terms of format and structure. Text, images, audio and video files, structured and unstructured data: a river of data flows in standard and non-standard formats into the ocean of Big Data.

Using Big Data

Big Data is useless without appropriate analysis and mining tools. These tools must overcome the challenge of the three Vs: they must be able to process a great volume and variety of data, very quickly. The ultimate goal is to enable companies to create value, optimize processes, and gain a competitive edge by turning reams of data into strategic information. For example, companies might want to detect early trends that would otherwise remain unnoticed, in order to act more quickly and deliberately. Or they could use data to feed predictive models to gauge the market’s reaction to a new offering before actually launching it.

Today, analysis tools are improving rapidly thanks to artificial intelligence and especially deep learning, which has the ability to cope with data variability. Faced with diverse data, AI is able to extract meaning from audio and video files, recognize images, translate texts, structure raw data, make semantic links between disparate data, make correlations and detect subtle patterns, resolve inconsistencies, etc.

Note that the main obstacle encountered in Big Data projects is data quality. If you provide bad data (erroneous, fragmented, inconsistently structured), the best artificial intelligence system will not be able to do much with it and, at worst, will produce faulty analysis.