Artishow Projects

Ma première IA jouant à un jeu vidéo

Ce projet a été attribué.

Encadrants

Pascal Bianchi
Emails: pascal.binchi@telecom-paris.fr
Bureaux: 5C52

Nombre d'étudiant par instance du projet:

Minimum: 2
Maximum: 3

Nombre d'instances du projet :

Sigles des UE couvertes et/ou Mots-clés :

INF104, MDI104

Image

Description du projet :

L’apprentissage par renforcement est une classe de méthodes statistiques au centre de l’intelligence artificielle moderne. Regardez cette très courte vidéo pour un exemple de réalisation https://youtu.be/SHLuf2ZBQSw

Le concept central est l’apprentissage par essais et erreur. Formellement, le contexte se décrit ainsi. Un agent (l’IA) produit des actions sur un environnement. En retour de chaque action, l’environnement fournit à l’agent une récompense, modélisée comme une variable aléatoire, qui dépend de l’action prise et de l’état de l’environnement. En outre, l’action modifie l’état de l’environnement. Dans ce modèle, appelé « processus de décision markovien », la dynamique de l’environnement est donc définie par une probabilité conditionnelle de l’état suivant, sachant l’état courant et l’action de l’agent.

Profil souhaité : 1) Excellentes aptitudes en programmation (python), 2) Bonne maîtrise de MDI104

Objectifs du projet :

La politique de l’agent est une fonction qui à tout état de l’environnement associe une certaine action. L’objectif est de déterminer la politique de l’agent qui maximise l’espérance de la somme des récompenses. Un algorithme permet de calculer cette politique optimale, il s’agit de l’algorithme de Q-learning. L’objectif de ce projet est de comprendre cet algorithme, et de le tester. Les étapes sont les suivantes :

Comprendre le cadre théorique des processus de décision markovien, et l’algorithme de Q-learning
Identifier les librairies python pertinentes
Implémenter un exemple simple :faire tenir un bâton droit sur une plaque mouvante
Si le temps et les aptitudes des élèves le permet, implémenter une IA capable de jouer à un jeu Atari.