Apprentissage par renforcement

Course Features

Course Details

Apprentissage par renforcement GINML13
Enseignant:
Email:
Durée totale du cours: 22.5 H
Semestre : 5
Option ingénierie des connaissances
Nombre de crédits : 2
Modules spécialisés Modules de base Sciences et techniques de l'ingénierie Préparation à la carrière professionnelle
X
 
Nombre dheures Activités hors classe
22.5 18
 
Code : GINML13 Apprentissage par renforcement
Volume Horaire      :1:h 30 Cours intégrés + 1h 30 en laboratoire  (par semaine)

Aperçu

Ce module présentera certaines des dernières avancées en matière de traitement du langage naturel et permettra aux étudiants de se tenir au courant des recherches en cours. Il fournira les compétences nécessaires pour permettre aux étudiants de construire des modèles pour résoudre une gamme de problèmes, tels que la classification des documents, la traduction et les agents de conversation. Les étudiants apprendront comment construire des pipelines NLP pour préparer les données de formation et choisir les algorithmes et techniques appropriés pour construire de tels modèles. Bien que les méthodes linguistiques traditionnelles soient mentionnées, un accent particulier sera mis sur les algorithmes de pointe d'apprentissage en profondeur et les méthodes d'apprentissage par transfert pour créer des solutions efficaces de PNL basées sur l'apprentissage automatique.

Objectif du module :

Le cours fournit à la fois des connaissances de base et avancées en apprentissage par renforcement à travers trois compétences de base: théorie, mise en œuvre et évaluation. Les étudiants apprendront les bases de l'apprentissage par renforcement tabulaire et de l'apprentissage par renforcement profond, et acquerront de l'expérience dans la conception et la mise en œuvre de ces méthodes pour des applications pratiques. Plus précisément, les étudiants vont :
  • Apprenez les fondements théoriques de l'apprentissage par renforcement (processus décisionnels de Markov et programmation dynamique).
  • Apprendre les fondements algorithmiques de l'apprentissage par renforcement (différence temporelle et apprentissage Monte-Carlo).
  • Acquérir de l'expérience dans la définition de problèmes de faible dimension et la mise en œuvre de solutions à l'aide de l'apprentissage par renforcement tabulaire.
  • Découvrez la motivation derrière l'apprentissage par renforcement profond et sa pertinence pour les applications de grande dimension, telles que les jeux vidéo et la robotique.
  • Découvrez les algorithmes d'apprentissage par renforcement profond de pointe tels que Deep Q Networks (DQN), Proximal Policy Optimization (PPO) et Soft Actor Critic (SAC).
  • Implémentez et expérimentez une gamme de différents algorithmes d'apprentissage par renforcement profond dans Python et PyTorch, et apprenez à visualiser et à évaluer leurs performances.

 Contenu du  cours

La première moitié du cours comprendra :
  • Introduction à l'apprentissage par renforcement et à ses fondements mathématiques
  • Le cadre du processus décisionnel de Markov
    • Processus de récompense de Markov
    • La politique
    • Processus décisionnels de Markov
  • Programmation dynamique
  • Apprentissage et contrôle sans modèle
    • Apprentissage de Monte-Carlo
    • Apprentissage par Différence Temporelle
La deuxième moitié du cours comprendra :
  • Motivation pour l'approximation de la fonction :
    • Espaces d'état et d'action de grande dimension
    • Espaces d'état et d'action continus
  • Apprentissage Q approfondi :
    • Mise à jour Q par rétro-propagation
    • Découvrez le tampon de relecture
    • Réseaux cibles et Q
  • Gradients de politique :
    • L'algorithme RENFORCER
    • Mise à jour de la politique par rétro-propagation
    • Optimisation de la politique proximale
  • Sujets avancés :
    • Critique d'acteur doux
    • Apprendre de la démonstration
    • Apprentissage par renforcement basé sur un modèle

Méthodes d'enseignement / d'apprentissage

  • Enseignement frontal (magistral) avec des exemples à résoudre en
  • Exercices théoriques et études de cas (présentation et discussion).
  • Travaux à faire à domicile (mini-projet, exposé, compte-rendu, …)
Le module sera livré en deux moitiés. La première moitié se concentrera sur la théorie sous-jacente à l'apprentissage par renforcement et la seconde moitié se concentrera sur les applications avec l'apprentissage par renforcement profond. Chaque moitié aura un cours. Chaque moitié comprendra à la fois des cours magistraux et des séances de laboratoire informatique. Les cours et les examens sont structurés pour couvrir trois compétences de base différentes : la théorie, la mise en œuvre et l'évaluation. Cours 1 évalue la théorie fondamentale et les solutions mathématiques. Cours 2 évalue l'application pratique par la mise en œuvre et l'évaluation. L'examen porte à la fois sur la théorie et l'évaluation. L'apprentissage par renforcement a un fort élément pratique et est mieux apprécié par la mise en œuvre et l'évaluation. La véritable compréhension de la signification derrière les divers concepts théoriques n'est réalisée que par l'expérience pratique et l'observation des effets des divers choix de conception. En tant que tel, le cours aura un haut niveau d'implication et contribuera à 60% à la note globale. Un service en ligne servira de forum de discussion pour le module.

Connaissances et compétences pré-requises

  • N/A

Références bibliographiques

Un polycopié (Notes du cours) de l’enseignant sera disponible.
  • Title: Reinforcement learning : an introduction
Author: Sutton, Richard S., ISBN: 9780262352703 (electronic bk.) Edition: Second edition. Publisher: The MIT Press Publication Date: 2018.
  • Title:Dynamic programming and optimal control. Vol. 1
Author:Bertsekas, Dimitri P. ISBN:1886529264 Edition:3rd ed. Publisher:Athena Scientific Publication Date:2005
  • Title:Mathematics for machine learning
Author:Deisenroth, Marc Peter, author. ISBN:9781108679930 Publisher:Cambridge University Press Publication Date:2020
  • Title:Algorithms for reinforcement learning
Author:Szepesvári, Csaba. ISBN:9781608454938 Publisher:Morgan & Claypool Publishers Publication Date:2010
  • Title:Pattern recognition and machine learning
Author:Bishop, Christopher M., author. ISBN:9780387310732 Publisher:Springer Publication Date:2006 - 2006

Stratégie d'évaluation

La stratégie d'évaluation est conçue pour fournir aux étudiants la possibilité de démontrer : Le premier cours portera sur la compréhension mathématique et théorique des fondements de l'apprentissage par renforcement. Le cours comprendra la traduction de problèmes du monde réel en formulations mathématiques dans le cadre de l'apprentissage par renforcement, ainsi que la solution "à la main" de simples processus de décision de Markov permettant aux étudiants d'évaluer leur compréhension de la théorie. Les cours pourront être résolus sur papier et stylo et sont complétés par des travaux pratiques en laboratoire où les étudiants peuvent développer du code pour résoudre les problèmes. Le deuxième cours impliquera la mise en œuvre d'un certain nombre d'algorithmes différents d'apprentissage par renforcement profond, en Python et PyTorch. Au cours des séances de laboratoire, les étudiants recevront des didacticiels de base pour la mise en œuvre de ces méthodes pour une tâche d'apprentissage particulière. Le cours demandera ensuite aux étudiants de mettre en œuvre des méthodes similaires, mais pour une tâche différente. Les deux tâches impliqueront un robot naviguant dans un "labyrinthe", mais elles différeront dans les dispositions du labyrinthe et les espaces d'état et d'action. Le cours contiendra des implémentations de base que tous les étudiants devraient être capables de réaliser, des implémentations plus difficiles évaluant le cœur du matériel de cours et des implémentations avancées qui mettront au défi les meilleurs étudiants. Pour les premier et deuxième cours, les étudiants travailleront de manière indépendante et soumettront individuellement. Les cours impliquent des «tâches» que les étudiants doivent résoudre en utilisant l'apprentissage par renforcement, et ces tâches sont uniques à chaque étudiant pour éviter le plagiat. Pour ce faire, des tâches seront automatiquement générées à l'aide du numéro CID de l'élève. Pour le premier cours, chaque étudiant soumettra un document contenant ses solutions travaillées. Les étudiants peuvent soumettre des visualisations d'accompagnement. L'évaluation sera notée par des assistants d'enseignement qui évaluent le travail quantitativement sur la base d'un système de notation. Pour le deuxième cours, chaque étudiant soumettra un morceau de code, qui sera évalué en l'utilisant pour former un agent utilisant l'apprentissage par renforcement profond, via un système automatisé. La performance de l'agent sur une tâche inconnue (que l'étudiant n'a jamais vue auparavant) comptera pour certaines des notes. Les notes restantes proviendront d'un rapport, qui décrira leur mise en œuvre, et comprendra des visualisations qui pourront ensuite être vérifiées par rapport à des données de terrain.

Modalité d’évaluation

  • 40% Contrôle continu (TP noté, Test, Assiduité, Devoir surveillé, travaux non présentiel, …)
  • 60% Examen

Résultat d'apprentissage :

À la fin de ce module, les étudiants devraient être capables de :
001 Décrire les principes de base de l'apprentissage des systèmes autonomes CKPT
002 Calculer des solutions mathématiques aux problèmes en utilisant la théorie de l'apprentissage par renforcement. KPT
003 Comparez et contrastez une gamme d'approches d'apprentissage par renforcement. CKPT
004 Proposer des solutions aux problèmes de prise de décision en utilisant les connaissances de l'état de l'art. KPT
005 Traduire des concepts mathématiques en logiciels pour résoudre des problèmes pratiques en utilisant Python et PyTorch. KPT
006 Évaluer les performances d'une gamme de méthodes et proposer des améliorations appropriées. KPT
007 Résumez des données complexes à l'aide de visualisations claires pour faciliter l'évaluation. CKPT
Attributs développés C - Cognitif/analytique K - Connaissance du sujet T - Compétences transférables P - Compétences professionnelles/pratiques
This course does not have any sections.

More Courses by this Instructor


Proud of NASCAR and its supporters and fans. They won put up with disrespecting our Country or our Flag they said it loud and clear! words Friday and Saturday sparked a massive show of defiance Sunday as more than 200 NFL players protested by choosing not to stand for the national anthem. Many coaches locked arms with the players. Goal was to provide cheap china jerseys open dialogue and communication. We listened to one another. We believe it the best way to work through any issue we are facing, on and off the field, owners Terry and Kim Pegula said in a statement distributed by the Bills. Trump remarks were divisive and disrespectful to the entire NFL community, but we tried to use them as an opportunity to further unify our team and our organization. Our players have the freedom to express themselves in a respectful and thoughtful manner and we all agreed that our sole message is to provide and to promote an environment that is focused on love and equality. "Within hours, cheap jerseys certainly, and probably less, the Ranger regiment officers, high ranking officers back in the States were conspiring to cover this up," Krakauer says. military's highest honors, immediately began moving through the Army ranks something that is not done cheap nfl jerseys for deaths by friendly fire, Krakauer says. 'Prairie niggers' is an insult. Those are very upsetting to our kids. But 'Redskins' is an honorable name we wear with pride. He wondered how to tell the Willpinit Redskins the "name they wear proudly across their chests is insulting them. Because they have no idea.". According to the "Princeton Review," there are no prerequisites for sports management positions, but most general managers in the NFL have similar backgrounds as former scouts, accountants or athletes.Start in SchoolGMs in the NFL must have a passion for the game. They typically have experience either playing or coaching football. "This pro football has been personally hand cheap china jerseys signed by Hall of Fame defensive tackle Joe Greene with the inscription ""HOF 87"". This product is officially licensed by the National Football League and comes with an individually numbered; tamper evident hologram from Mounted Memories. To ensure authenticity, the hologram can be reviewed online. This oakley sunglasses sale process helps to ensure that the product purchased is authentic and eliminates any possibility of duplication or Retro Jordans fraud. " Setting Point Spreads, OddsOddsmakers do more than predict the outcome of games. They weigh myriad factors to determine which team is favored by how many points. In individual sports or group events, they set odds on which individual or team is most likely to win. They set odds that spread the betting encouraging bets on the underdogs and discouraging bets on heavy favorites. Their goal is to create higher betting volume and more wins than losses for the sports cheap jerseys book.
Need Help? Chat with us