cedric sileo : ingénieur, intelligence artificielle, docteur en sciences

dimanche | 22 octobre 2017

Oubli catastrophique

Google sur le point de corriger un problème fondamental de l'intelligence artificielle

DeepMind IA.jpg

Les IA utilisant des réseaux neuronaux sont très performantes pour réaliser un type de tâches mais oublient ce qu’elles ont appris quand on leur confie un nouveau travail. Des chercheurs ont trouvé un moyen de mettre un terme à ce que les spécialistes appellent « l’oubli catastrophique ».

Avant de mettre à terre des champions du jeu de Go, les intelligences artificielles de DeepMind, société britannique rachetée par Google en 2014, s’attelaient à faire mieux que les humains face à quelques vieux jeux Atari. Depuis, le deep learning et l’apprentissage par renforcement ont grandement progressé et une nouvelle étape vient d’être franchie.

L'oubli catastrophique

Jusqu’à présent, un réseau neuronal était créé et apprenait à maîtriser une tâche : traduire du texte, classer des images ou venir à bout d’un niveau particulièrement retors de Space Invaders. Dans ce dernier cas, l’intelligence artificielle apprenait à terminer le jeu, à faire mieux que les joueurs humains. Mais ensuite, quand on lui soumettait une nouvelle tâche, elle oubliait tout pour réapprendre. Autrement dit, l’IA n’était pas capable de mémoriser ce savoir-faire. Pour chacun des titres Atari auxquels elle s’attaquait, il fallait tout recommencer. Le système qui avait terrassé Space Invaders ne pouvait pas jouer à Pong, par exemple, sans tout oublier et tout réapprendre. Un problème de mémoire, en quelque sorte, et de capacité à utiliser des connaissances dans un cadre différent, contrairement à l’humain qui apprend peu à peu et réutilise son savoir. Ce travers fondamental des réseaux neuronaux a d’ailleurs un joli nom « l’oubli catastrophique ».

L'inspiration des neurosciences

Pour mettre un terme à cette « amnésie », les chercheurs de DeepMind et de l’Imperial College de Londres ont franchi une nouvelle étape en s’inspirant, une fois encore, des neurosciences et de ce qu’on sait du fonctionnement de la mémoire humaine. Dans nos processus d’apprentissage, les neuroscientifiques distinguent ainsi deux méthodes de consolidation du savoir : la consolidation systématique et la consolidation synaptique.

La première consiste à « graver » dans la partie de l’apprentissage lent de notre cerveau ce qui a été mémorisé dans la partie d’apprentissage rapide. Ce transfert se fait de manière consciente et/ou inconsciente, notamment pendant les phases de rêve. La seconde repose sur des connexions établies entre les neurones et est bien plus durable. D’autant plus que ces connexions ont été utiles et importantes lors d’apprentissages précédents.

Le poids élastique du savoir

C’est de cette seconde consolidation que les chercheurs de DeepMind et de l’Imperial College se sont inspirés pour créer leur algorithme anti-oubli catastrophique.

Ainsi, après chaque apprentissage, leur intelligence artificielle pèse l’importance de chaque connexion neuronale pour la tâche qui vient d’être effectuée. Cette connexion est ensuite protégée contre des modifications futures, de manière proportionnelle à son importance. Plus une connexion est essentielle, plus elle sera difficile à altérer, permettant tout à la fois la préservation et l’évolution du « savoir ».

C’est en référence à cette variation de l’importance d'un lien, à ce « poids élastique » donné à la connexion, qu’a été nommé l’algorithme : EWC, pour Elastic Weight Consolidation.

Dans les faits, les intelligences artificielles de DeepMind deviennent capables grâce à cet algorithme EWC d’apprendre de manière séquentielle. Elles passent ainsi d’un jeu à un autre, sans oublier, sans recommencer à zéro à chaque fois, et apprennent à les maîtriser les uns après les autres.

Un progrès immense. Pour autant, les intelligences artificielles générales, qui savent tout faire et retiennent tout, ne sont pas encore là. Mais ce premier pas pourrait montrer la voie vers des IA capables d’adapter leur apprentissage en temps réel en fonction des données qu’on leur soumet.

Ce pourrait être un moyen de produire des programmes capables d’apprendre de manière plus souple et efficace. C’est en tout cas la preuve que les réseaux neuronaux du futur ne sont pas condamnés à l’oubli catastrophique. La malédiction est rompue !

(Sources 01net)

 

chef de projet web technologies intelligence information formation chef projet artificielle doctorat informatique maîtrise développement thèse université systèmes recherche société temps base machines machine problèmes connaissances problème techniques exemple système règles internet définition