Apprentissage par renforcement

Course Features

Course Instructor: belhabib

Catégorie:Ingénierie des connaissances, Ingénieur Informatique

Viewers: 656

Students: 1

Code: GINML13

Course Details

Apprentissage par renforcement GINML13

Enseignant:

Email:

Durée totale du cours: 22.5 H

Semestre : 5

Option ingénierie des connaissances

Nombre de crédits : 2

Modules spécialisés	Modules de base	Sciences et techniques de l'ingénierie	Préparation à la carrière professionnelle
		X

Nombre d’heures	Activités hors classe
22.5	18

Code

: GINML13

Apprentissage par renforcement

Volume Horaire :1:h 30 Cours intégrés + 1h 30 en laboratoire (par semaine)

Aperçu

Ce module présentera certaines des dernières avancées en matière de traitement du langage naturel et permettra aux étudiants de se tenir au courant des recherches en cours. Il fournira les compétences nécessaires pour permettre aux étudiants de construire des modèles pour résoudre une gamme de problèmes, tels que la classification des documents, la traduction et les agents de conversation. Les étudiants apprendront comment construire des pipelines NLP pour préparer les données de formation et choisir les algorithmes et techniques appropriés pour construire de tels modèles. Bien que les méthodes linguistiques traditionnelles soient mentionnées, un accent particulier sera mis sur les algorithmes de pointe d'apprentissage en profondeur et les méthodes d'apprentissage par transfert pour créer des solutions efficaces de PNL basées sur l'apprentissage automatique.

Objectif du module :

Le cours fournit à la fois des connaissances de base et avancées en apprentissage par renforcement à travers trois compétences de base: théorie, mise en œuvre et évaluation. Les étudiants apprendront les bases de l'apprentissage par renforcement tabulaire et de l'apprentissage par renforcement profond, et acquerront de l'expérience dans la conception et la mise en œuvre de ces méthodes pour des applications pratiques. Plus précisément, les étudiants vont :

Apprenez les fondements théoriques de l'apprentissage par renforcement (processus décisionnels de Markov et programmation dynamique).
Apprendre les fondements algorithmiques de l'apprentissage par renforcement (différence temporelle et apprentissage Monte-Carlo).
Acquérir de l'expérience dans la définition de problèmes de faible dimension et la mise en œuvre de solutions à l'aide de l'apprentissage par renforcement tabulaire.
Découvrez la motivation derrière l'apprentissage par renforcement profond et sa pertinence pour les applications de grande dimension, telles que les jeux vidéo et la robotique.
Découvrez les algorithmes d'apprentissage par renforcement profond de pointe tels que Deep Q Networks (DQN), Proximal Policy Optimization (PPO) et Soft Actor Critic (SAC).
Implémentez et expérimentez une gamme de différents algorithmes d'apprentissage par renforcement profond dans Python et PyTorch, et apprenez à visualiser et à évaluer leurs performances.

Contenu du cours

La première moitié du cours comprendra :

Introduction à l'apprentissage par renforcement et à ses fondements mathématiques
Le cadre du processus décisionnel de Markov
- Processus de récompense de Markov
- La politique
- Processus décisionnels de Markov
Programmation dynamique
Apprentissage et contrôle sans modèle
- Apprentissage de Monte-Carlo
- Apprentissage par Différence Temporelle

La deuxième moitié du cours comprendra :

Motivation pour l'approximation de la fonction :
- Espaces d'état et d'action de grande dimension
- Espaces d'état et d'action continus
Apprentissage Q approfondi :
- Mise à jour Q par rétro-propagation
- Découvrez le tampon de relecture
- Réseaux cibles et Q
Gradients de politique :
- L'algorithme RENFORCER
- Mise à jour de la politique par rétro-propagation
- Optimisation de la politique proximale
Sujets avancés :
- Critique d'acteur doux
- Apprendre de la démonstration
- Apprentissage par renforcement basé sur un modèle

Méthodes d'enseignement / d'apprentissage

Enseignement frontal (magistral) avec des exemples à résoudre en
Exercices théoriques et études de cas (présentation et discussion).
Travaux à faire à domicile (mini-projet, exposé, compte-rendu, …)

Le module sera livré en deux moitiés. La première moitié se concentrera sur la théorie sous-jacente à l'apprentissage par renforcement et la seconde moitié se concentrera sur les applications avec l'apprentissage par renforcement profond. Chaque moitié aura un cours. Chaque moitié comprendra à la fois des cours magistraux et des séances de laboratoire informatique. Les cours et les examens sont structurés pour couvrir trois compétences de base différentes : la théorie, la mise en œuvre et l'évaluation. Cours 1 évalue la théorie fondamentale et les solutions mathématiques. Cours 2 évalue l'application pratique par la mise en œuvre et l'évaluation. L'examen porte à la fois sur la théorie et l'évaluation. L'apprentissage par renforcement a un fort élément pratique et est mieux apprécié par la mise en œuvre et l'évaluation. La véritable compréhension de la signification derrière les divers concepts théoriques n'est réalisée que par l'expérience pratique et l'observation des effets des divers choix de conception. En tant que tel, le cours aura un haut niveau d'implication et contribuera à 60% à la note globale. Un service en ligne servira de forum de discussion pour le module.

Connaissances et compétences pré-requises

Références bibliographiques

Un polycopié (Notes du cours) de l’enseignant sera disponible.

Title: Reinforcement learning : an introduction

Author: Sutton, Richard S., ISBN: 9780262352703 (electronic bk.) Edition: Second edition. Publisher: The MIT Press Publication Date: 2018.

Title:Dynamic programming and optimal control. Vol. 1

Author:Bertsekas, Dimitri P. ISBN:1886529264 Edition:3rd ed. Publisher:Athena Scientific Publication Date:2005

Title:Mathematics for machine learning

Author:Deisenroth, Marc Peter, author. ISBN:9781108679930 Publisher:Cambridge University Press Publication Date:2020

Title:Algorithms for reinforcement learning

Author:Szepesvári, Csaba. ISBN:9781608454938 Publisher:Morgan & Claypool Publishers Publication Date:2010

Title:Pattern recognition and machine learning

Author:Bishop, Christopher M., author. ISBN:9780387310732 Publisher:Springer Publication Date:2006 - 2006

Stratégie d'évaluation

La stratégie d'évaluation est conçue pour fournir aux étudiants la possibilité de démontrer : Le premier cours portera sur la compréhension mathématique et théorique des fondements de l'apprentissage par renforcement. Le cours comprendra la traduction de problèmes du monde réel en formulations mathématiques dans le cadre de l'apprentissage par renforcement, ainsi que la solution "à la main" de simples processus de décision de Markov permettant aux étudiants d'évaluer leur compréhension de la théorie. Les cours pourront être résolus sur papier et stylo et sont complétés par des travaux pratiques en laboratoire où les étudiants peuvent développer du code pour résoudre les problèmes. Le deuxième cours impliquera la mise en œuvre d'un certain nombre d'algorithmes différents d'apprentissage par renforcement profond, en Python et PyTorch. Au cours des séances de laboratoire, les étudiants recevront des didacticiels de base pour la mise en œuvre de ces méthodes pour une tâche d'apprentissage particulière. Le cours demandera ensuite aux étudiants de mettre en œuvre des méthodes similaires, mais pour une tâche différente. Les deux tâches impliqueront un robot naviguant dans un "labyrinthe", mais elles différeront dans les dispositions du labyrinthe et les espaces d'état et d'action. Le cours contiendra des implémentations de base que tous les étudiants devraient être capables de réaliser, des implémentations plus difficiles évaluant le cœur du matériel de cours et des implémentations avancées qui mettront au défi les meilleurs étudiants. Pour les premier et deuxième cours, les étudiants travailleront de manière indépendante et soumettront individuellement. Les cours impliquent des «tâches» que les étudiants doivent résoudre en utilisant l'apprentissage par renforcement, et ces tâches sont uniques à chaque étudiant pour éviter le plagiat. Pour ce faire, des tâches seront automatiquement générées à l'aide du numéro CID de l'élève. Pour le premier cours, chaque étudiant soumettra un document contenant ses solutions travaillées. Les étudiants peuvent soumettre des visualisations d'accompagnement. L'évaluation sera notée par des assistants d'enseignement qui évaluent le travail quantitativement sur la base d'un système de notation. Pour le deuxième cours, chaque étudiant soumettra un morceau de code, qui sera évalué en l'utilisant pour former un agent utilisant l'apprentissage par renforcement profond, via un système automatisé. La performance de l'agent sur une tâche inconnue (que l'étudiant n'a jamais vue auparavant) comptera pour certaines des notes. Les notes restantes proviendront d'un rapport, qui décrira leur mise en œuvre, et comprendra des visualisations qui pourront ensuite être vérifiées par rapport à des données de terrain.

Modalité d’évaluation

40% Contrôle continu (TP noté, Test, Assiduité, Devoir surveillé, travaux non présentiel, …)
60% Examen

Résultat d'apprentissage :

À la fin de ce module, les étudiants devraient être capables de :

001	Décrire les principes de base de l'apprentissage des systèmes autonomes	CKPT
002	Calculer des solutions mathématiques aux problèmes en utilisant la théorie de l'apprentissage par renforcement.	KPT
003	Comparez et contrastez une gamme d'approches d'apprentissage par renforcement.	CKPT
004	Proposer des solutions aux problèmes de prise de décision en utilisant les connaissances de l'état de l'art.	KPT
005	Traduire des concepts mathématiques en logiciels pour résoudre des problèmes pratiques en utilisant Python et PyTorch.	KPT
006	Évaluer les performances d'une gamme de méthodes et proposer des améliorations appropriées.	KPT
007	Résumez des données complexes à l'aide de visualisations claires pour faciliter l'évaluation.	CKPT

Attributs développés C - Cognitif/analytique K - Connaissance du sujet T - Compétences transférables P - Compétences professionnelles/pratiques

info@suptech.tn

+21626050051

22, Avenue de Madrid, 1001 Tunis

info@suptech.tn

+216 26051051
Fax : +216 71 24 7 1 60

Course Features

Course Details

Apprentissage par renforcement GINML13

Enseignant:

Email:

Durée totale du cours: 22.5 H

Semestre : 5

Option ingénierie des connaissances

Nombre de crédits : 2

Aperçu

Objectif du module :

Contenu du cours

Méthodes d'enseignement / d'apprentissage

Connaissances et compétences pré-requises

Références bibliographiques

Stratégie d'évaluation

Modalité d’évaluation

Résultat d'apprentissage :

More Courses by this Instructor

Systèmes d’exploitation avancés Linux 2

NoSQL Database Systems

Datawarehouse & Business Intelligence

info@suptech.tn

+21626050051

CONTACT

Apprentissage par renforcement

Course Features

Course Details

Apprentissage par renforcement GINML13

Enseignant:

Email:

Durée totale du cours: 22.5 H

Semestre : 5

Option ingénierie des connaissances

Nombre de crédits : 2

Aperçu

Objectif du module :

Contenu du cours

Méthodes d'enseignement / d'apprentissage

Connaissances et compétences pré-requises

Références bibliographiques

Stratégie d'évaluation

Modalité d’évaluation

Résultat d'apprentissage :

More Courses by this Instructor

S'INSCRIRE À LA NEWSLETTRE