7 étonnantes applications de l’apprentissage profond (2018)

English

L’apprentissage profond inspire l’imagination et la créativité des programmeurs, notamment dans les domaines du traitement des images et du son. Voici sept applications particulièrement intéressantes, dont certaines marquent l’histoire de l’intelligence artificielle.

Estimer la posture humaine en temps réel

Présenté en 2016, cet outil à base de réseau neuronal convolutif permet de situer un être humain sur une vidéo et de détecter sa posture en temps réel. Depuis, l’équipe de chercheurs de l’université Carnegie-Mellon a publié une librairie dénommée OpenPose qu’elle ne cesse d’améliorer, ajoutant à la détection du corps l’analyse de la pose des mains et des expressions faciales avec en tout 135 points clés. Avec plusieurs prises de vues de la même scène, il est possible de construire des modèles 3D. Cette technologie trouvera sans doute son chemin dans le domaine de la capture de mouvement au service du cinéma.

GitHub, “Realtime Multi-Person Pose Estimation.”

GitHub, “OpenPose.”

Poser des diagnostics médicaux

À Londres, des chercheurs de DeepMind et des médecins de l’hôpital des yeux Moorfields ont collaboré pour créer un outil d’intelligence artificielle capable de diagnostiquer avec précision 50 maladies à partir de numérisations 3D de l’intérieur du globe oculaire (obtenues par tomographie optique cohérente). Le logiciel a été formé avec près de 15 000 numérisations de 7 500 patients de l’hôpital ophtalmologique, accompagnées des diagnostics posés par les médecins. Dans 94 % des cas, le programme est arrivé au même résultat que le clinicien humain et ce ne sont là que des résultats préliminaires. Les chercheurs espèrent que l’outil pourra dans un avenir proche aider les médecins en traitant rapidement les scans et décelant les patients qui nécessitent un traitement urgent.

DeepMind, “A major milestone for the treatment of eye disease.”

Être champion de Breakout

Avant de battre les champions de jeu de go avec AlphaGo, le premier succès de DeepMind a été de développer un programme utilisant la technique de l’apprentissage profond par renforcement (“Deep reinforcement learning”) capable de devenir par lui-même un champion surhumain du jeu vidéo Breakout de la console Atari 2600. On n’avait donné au programme aucune explication sur le fonctionnement du jeu, mais simplement l’objectif de faire le meilleur score. C’est à tâtons qu’il a découvert comment marquer des points et en deux heures, il était déjà un expert. Son autoapprentissage lui a permis de découvrir la stratégie gagnante.

The New-Yorker, “Artificial Intelligence Goes to the Arcade.”

Composer comme Chopin

Francesco Marchesani de l’université Polytechnique de Turin s’est amusé à nourrir un réseau de neurones récurrents avec des fichiers MIDI d’œuvres pour piano de Frédéric Chopin. Les résultats ne sont sans doute pas de l’ordre du chef d’œuvre, mais ça sonne définitivement comme du Chopin. Aujourd’hui, les recherches en musique conçue par intelligence artificielle vont plus loin, il ne s’agit plus de calquer un style de manière statistique, mais de produire des compositions vraiment originales.

The New-Yorker, “Neural Nets for Generating Music.”

Lire sur les lèvres

Une équipe de recherche du département d’informatique de l’université d’Oxford a mis au point un système de lecture sur les lèvres qui surpasse de loin les performances des humains spécialistes de la technique et des systèmes de lecture labiale déjà existants. Le programme a encore ses limites : il faut par exemple que la personne soit de face et bien éclairée. Mais l’équipe souhaite améliorer l’outil, en particulier en tant qu’aide pour les personnes malentendantes.

University of Oxford, Department of Computer Science, “LipNet AI takes lip reading into the future.”

Coloriser des photos et vidéos

Basé sur les réseaux neuronaux convolutionnels, le programme développé par des chercheurs de l’université Waseda à Tokyo peut coloriser des images de n’importe quelle résolution, contrairement à la plupart des approches existantes basées sur des ConvNets, et ses résultats sont très convaincants. Il fonctionne aussi bien sur des photos en noir et blanc modernes que des photos vieilles de plus d’un siècle.

⇨ Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa, “Let there be Color!

Voir aussi :

⇨ Gustav Larsson, Michael Maire, Gregory Shakhnarovich, “Learning Representations for Automatic Colorization.”

Faire dire n’importe quoi

Des chercheurs de l’université de Washington ont créé un programme qui prend un fichier audio, le convertit en mouvements de la bouche, puis colle ces mouvements sur une vidéo existante. Le résultat final est une vidéo de quelqu’un qui dit autre chose que ce qu’il a réellement dit. L’exemple avec le président Barack Obama est stupéfiant et même, un peu inquiétant. Il y aura bien un jour des producteurs de “fake news” qui réussiront à combiner un outil capable de synthétiser la voie de n’importe qui avec un outil de manipulation des vidéos… On imagine les effets potentiels. Les chercheurs ont expliqué qu’ils ont utilisé Obama parce que les vidéos HD de l’ancien président sont disponibles en abondance, ce qui facilite la formation du réseau neuronal.

⇨ Supasorn Suwajanakorn, Steven M. Seitz, Ira Kemelmacher-Shlizerman, “Synthesizing Obama : Learning Lip Sync from Audio.”


7 amazing ways to apply deep learning

Deep Learning is capturing the imagination of programmers and stimulating their creativity, particularly in the fields of image and sound processing. Here are seven especially exciting applications, some of which are milestones in the history of artificial intelligence.

Estimating human poses in real time

Launched in 2016, this convolutional neural network-based tool detects human figures in a video and estimates their pose in real time. The research team at Carnegie-Mellon University has published the OpenPose library and is constantly improving it. Besides recognizing body poses, the system can now estimate hand positions and facial expressions using 135 key points. We can even obtain 3D models using multiple views of the same scene. This technology will no doubt find its way to the field of motion-capture for film production.

GitHub, “Realtime Multi-Person Pose Estimation.”

GitHub, “OpenPose.”

Making medical diagnoses

In London, DeepMind researchers worked with doctors from the Moorfields Eye Hospital to create an artificial intelligence tool able to accurately diagnose some 50 eye diseases. This was accomplished by using optical coherence tomography to digitize 3D images of the interior of the eye. The system was “trained” using some 15,000 eye images from 7,500 patients, along with doctors’ diagnoses. Preliminary results show that the program can reach the same diagnosis as human doctors in 94% of cases. Researchers hope that the tool will soon be able to help doctors rapidly process scans to detect which patients need urgent care.

DeepMind, “A major milestone for the treatment of eye disease.”

Becoming a Breakout superhero

Before it beat Go champions with AlphaGo, DeepMind developed a program using Deep Reinforcement Learning to become a super-human champion of Breakout, the classic Atari 2,600 arcade game. The program was given no information on how the game worked; it was simply told that the goal was to get the highest score possible. It eventually figured out how to score points, and two hours later, it had reached the expert level using its self-learning capabilities to discover a winning strategy.

The New Yorker, “Artificial Intelligence Goes to the Arcade.”

Composing like Chopin

Francesco Marchesani of Torino Polytechnic University fed a recurrent neural network with MIDI files of Frederic Chopin’s pieces for piano. The results are by no means masterpieces, but they definitely sound like Chopin. Research in algorithmic composition has gone one step further, it is no longer a matter of copying a style in a statistical manner, but of producing truly innovative and original pieces.

Artists and Machine Intelligence,Neural Nets for Generating Music.”

Lip-reading

A team of researchers from the Department of Computer Science at Oxford University has devised a lip-reading system that far surpasses the performance of human lip-reading experts and existing systems. The program does have its limits: speakers must face the camera squarely and their face must be brightly lit. But the team hopes to improve the tool to turn it into a useful aid for the deaf and hard of hearing.

University of Oxford, Department of Computer Science, “LipNet AI takes lip reading into the future.”

Colorizing photos and videos

Based on convolutional neural networks, this program developed by researchers at Tokyo’s Waseda University can realistically colorize images at any resolution, unlike current approaches that are based on ConvNets. It works just as well on modern B&W photos as on century-old images.

⇨ Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa, “Let there be Color!

See also:

⇨ Gustav Larsson, Michael Maire, Gregory Shakhnarovich, “Learning Representations for Automatic Colorization.”

Putting words in people’s mouths

Researchers at the University of Washington created a program that converts an audio file into mouth motions, then pastes these movements into existing videos. The final result is a video where speakers look like they’re saying something other than what they actually said. The example provided using Barack Obama is astonishing and even alarming. It’s a matter of time before “fake news” producers combine a voice-synthesizing tool with a video processing tool … with all of its devastating consequences. The researchers explained that they used clips of Obama because of the wide availability of high-quality videos of the former President, which eases the training of the neural network.

⇨ Supasorn Suwajanakorn, Steven M. Seitz, Ira Kemelmacher-Shlizerman, “Synthesizing Obama: Learning Lip Sync from Audio.”