Ma première IA jouant à un jeu vidéo
Encadrants
- Pascal Bianchi
- Emails: pascal.binchi@telecom-paris.fr
- Bureaux: 5C52
Nombre d'étudiant par instance du projet:
- Minimum: 2
- Maximum: 3
Nombre d'instances du projet :
1Sigles des UE couvertes et/ou Mots-clés :
INF104, MDI104Logo/Favicon
Description du projet :
L’apprentissage par renforcement est une classe de méthodes statistiques au centre de l’intelligence artificielle moderne. Regardez cette très courte vidéo pour un exemple de réalisation https://youtu.be/SHLuf2ZBQSwLe concept central est l’apprentissage par essais et erreur. Formellement, le contexte se décrit ainsi. Un agent (l’IA) produit des actions sur un environnement. En retour de chaque action, l’environnement fournit à l’agent une récompense, modélisée comme une variable aléatoire, qui dépend de l’action prise et de l’état de l’environnement. En outre, l’action modifie l’état de l’environnement. Dans ce modèle, appelé « processus de décision markovien », la dynamique de l’environnement est donc définie par une probabilité conditionnelle de l’état suivant, sachant l’état courant et l’action de l’agent.
Profil souhaité : 1) Excellentes aptitudes en programmation (python), 2) Bonne maîtrise de MDI104
Objectifs du projet :
La politique de l’agent est une fonction qui à tout état de l’environnement associe une certaine action. L’objectif est de déterminer la politique de l’agent qui maximise l’espérance de la somme des récompenses. Un algorithme permet de calculer cette politique optimale, il s’agit de l’algorithme de Q-learning. L’objectif de ce projet est de comprendre cet algorithme, et de le tester. Les étapes sont les suivantes :- Comprendre le cadre théorique des processus de décision markovien, et l’algorithme de Q-learning
- Identifier les librairies python pertinentes
- Implémenter un exemple simple :faire tenir un bâton droit sur une plaque mouvante
- Si le temps et les aptitudes des élèves le permet, implémenter une IA capable de jouer à un jeu Atari.