Traitement et reconnaissance du parole et de l’audio

Course Features

Course Details

Traitement et reconnaissance du parole et de l’audio GINML5
Enseignant:
Email:
Durée totale du cours: 22.5 H
Semestre : 5
Option ingénierie des connaissances
Nombre de crédits : 2
Modules spécialisés Modules de base Sciences et techniques de l'ingénierie Préparation à la carrière professionnelle
       X X
 
Nombre dheures Activités hors classe
22.5 18
 
Code : GINML5 TRAITEMENT ET RECONNAISSANCE DE LA PAROLE ET DE L'AUDIO
Volume Horaire       : 01h:30 Cours intégrés + Travaux pratiques (par semaine)

Aperçu

Formations préalables attendues : Traitement numérique du signal ou formation équivalente en traitement du signal.

Objectif du module : Éduquer les étudiants aux aspects particuliers du traitement et de la reconnaissance de la parole, avec des concepts, des problèmes d'ingénierie, des exemples concrets et des simulations informatiques. Le module traite des concepts de base, des méthodes de traitement du signal et des applications d'interaction homme-machine du traitement et de la reconnaissance de la parole, y compris la perception auditive et la psychoacoustique. Vous apprendrez comment extraire les caractéristiques saillantes des signaux vocaux, comment concevoir un modèle de langage parlé, comment effectuer la reconnaissance et la formation, et vous aurez un aperçu des recherches actuelles sur la reconnaissance vocale spontanée, telles que l'adaptation du locuteur et les solutions de robustesse à bruit. Des démonstrations, des illustrations intéressantes et des exemples de travail seront donnés. Les étudiants qui réussissent peuvent soit poursuivre des études doctorales, soit obtenir des emplois dans les départements R&D de l'industrie, c'est-à-dire des emplois qui sont à un niveau supérieur à celui de simples opérateurs de progiciels. Les techniques présentées ont de nombreuses autres applications au-delà de la parole,

Contenu du  cours

Le contenu indicatif comprend les éléments suivants.

Composante du cours Traitement de la parole et de l'audio Introduction  Parole et langage. Traitement numérique de la parole. Applications de traitement de la parole. Caractéristiques des signaux de parole. Production de la parole Description de l'appareil vocal. Modèle source-filtre. Origine de la périodicité, formants et anti-résonance en termes de modèle physique. Modèle numérique omnipolaire du conduit vocal. Relation entre modèle physique et phonèmes. Perception de la parole La structure de l'oreille. Réponse en fréquence et en amplitude de l'oreille. Unités de perception. Techniques de traitement du signal Autocorrélation des signaux vocaux. Estimation de hauteur à partir de signaux vocaux. Analyse de Fourier du signal de parole. Spectrogramme et densité spectrale de puissance. Analyse spectrale de la parole voisée et non voisée. Analyse spectrale des formants et des antirésonances. Structure harmonique du discours. Prédiction linéaire Transformation en Z. Fonction de transfert des voies vocales. Stabilité de la fonction de transfert. Concept et modèle de prédiction linéaire. Filtre source omnipolaire. Sélection de l'ordre et sa relation avec l'erreur de prédiction. Estimation des coefficients LPC. Synthèse vocale à partir des coefficients LPC. Filtrage inverse du signal de parole Séparant la source de l'excitation. Réponse des voies vocales – estimation du format. Estimation de la hauteur à partir du résidu. Prédiction linéaire robuste. Déconvolution cepstrale Définition du vrai cepstre. Transformer la convolution en somme par opération non linéaire. Le logarithme complexe. Le cepstre complexe. L'unité de fréquence. Estimation de hauteur via le cepstre. Comparaison de l'enveloppe spectrale avec celle issue de la prédiction linéaire. Enregistrement audio et acoustique Types de microphones et modèles de directivité, acquisition audio numérique, propagation des ondes et acoustique, effets de réflexions et de réverbération. Psychoacoustique  Perception de la sonie, perception de la hauteur, masquage auditif, perception du timbre, audition spatiale. Lecture Composant Reconnaissance automatique de la parole Introduction Communication vocale humaine. Le rôle de l'ASR dans l'interaction homme-machine. Fondamentaux de la phonétique et de la perception de la parole. Extraction de caractéristiquesAcoustique des voies vocales et prédiction linéaire. Cepstre de fréquence Mel. Caractéristiques de différence. Correspondance de modèle Déformation dynamique du temps. Reconnaissance des mots isolés et des mots connectés. Rechercher l'élagage. Modèles de Markov cachés Modèles de Markov et topologies d'état. Formule HMM. Fichiers PDF à sortie discrète et continue. Reconnaissance et décodage de Viterbi Diagrammes en treillis. Probabilités avant et arrière. Vraisemblances cumulées et retraçage. Apprentissage automatique par maximisation des attentes Formation Baum-Welch : dérivation et implémentation. Reconnaissance vocale continue à grand vocabulaire Modélisation et actualisation du langage. Sensibilité au contexte et liaison de paramètres. Adaptation et robustesse Adaptation au locuteur : méthodes MLLR et MAP. Robustesse au bruit : soustraction spectrale et combinaison de modèles parallèles. Méthodes d'enseignement / d'apprentissage
  • Enseignement frontal (magistral) avec des exemples à résoudre en
  • Exercices théoriques et études de cas (présentation et discussion).
  • Travaux à faire à domicile (mini-projet, exposé, compte-rendu, …) 
La stratégie d'apprentissage et d'enseignement est conçue pour atteindre les objectifs suivants :
  • Offrir une formation générale en ingénierie dans les domaines du traitement de la parole, de l'apprentissage automatique, du traitement du langage parlé, de la reconnaissance des formes et de la psychoacoustique.
  • Développer des compétences analytiques et informatiques à l'aide de techniques avancées. Promouvoir la confiance technique par l'élaboration de techniques spécialisées associées au traitement et à la reconnaissance de la parole.
  • Fournir une expérience des outils logiciels couramment utilisés en rapport avec le traitement de la parole et du signal audio et avec certaines techniques d'apprentissage automatique.
  • Cultiver des compétences transférables en prise de notes, représentation des connaissances, rédaction technique, gestion du temps et conduite professionnelle.
Les méthodes d'apprentissage et d'enseignement comprennent les éléments suivants. Conférences
  • Discussion en classe intégrée au cours magistral
  • Problèmes conçus en classe
  • Mission sous forme de simulations informatiques et de rapports
  • Cours de révision programmés qui démontrent les principes de la théorie dans des exemples concrets quantitatifs et préparent les étudiants à l'examen écrit.

Connaissances et compétences pré-requises

  • Traitement numérique du signal ou formation équivalente en traitement du signal

Références bibliographiques

Stratégie d'évaluation

La  stratégie d'évaluation  de ce module est conçue pour fournir aux étudiants la possibilité de démontrer les résultats d'apprentissage. Le devoir de simulation informatique évaluera les compétences techniques et l'expertise des étudiants dans la conception d'un système simple de synthèse/reconnaissance de la parole en appliquant les méthodes et les concepts discutés au cours. L'examen écrit évaluera les connaissances et la compréhension des étudiants des principaux concepts de traitement et de reconnaissance de la parole et de l'audio, ainsi que leur capacité à utiliser ces connaissances (telles que le codage prédictif linéaire) pour résoudre certains problèmes de base de la modélisation et de l'analyse de la parole (tels que le formant estimation de la fréquence). Ainsi, l'  évaluation sommative  pour ce module comprend les éléments suivants. ·         Le devoir de traitement de la parole  (20 %) est une expérience informatique sur la synthèse vocale. Les étudiants sont tenus de soumettre un rapport (en copie électronique) d'une longueur d'au moins 1000 mots (hors figures, tracés et tableaux) (longueur flexible en termes de pages, 5-30 pages de format A4), accompagné de code de programmation (tel que le code Matlab) et des échantillons audio synthétisés en copie électronique, avant la date limite mardi de la semaine 7. ·          Le devoir de reconnaissance vocale  (20%) est une expérience informatique sur la reconnaissance vocale. Les étudiants sont tenus de soumettre un rapport (en copie électronique) avec des solutions aux questions posées en termes de tâche de reconnaissance vocale, avant une date limite. ·          L'examen (60 %) offre un choix limité de sujets pour s'assurer qu'une bonne couverture des connaissances spécialisées est testée lors d'un examen écrit. Les questions sont conçues pour évaluer les résultats à différents niveaux cognitifs, en commençant souvent par relier les connaissances, puis en formulant un problème, en effectuant une analyse et en réfléchissant au résultat. Évaluation formative et rétroaction Pour le module, les étudiants recevront une évaluation/rétroaction formative des manières suivantes. · Pendant les cours magistraux, par des séances de questions-réponses · Pendant les cours magistraux, par des discussions de groupe · Pendant les cours d'exemples travaillés/révisions · Au moyen de problèmes de tutorat non évalués (avec réponses/solutions modèles) · Via la notation du devoir, à la fois les soumissions de fichiers électroniques et les rapports écrits

Modalité d’évaluation

  • 40% Contrôle continu (TP noté, Test, Assiduité, Devoir surveillé, travaux non présentiel, …)
  • 60% Examen

Résultat d'apprentissage :

À la fin du cours, vous devriez être capable de :
001 Démontrer une compréhension systématique des principaux concepts de traitement et de reconnaissance de la parole et de l'audio. K
002 Appliquer les concepts et les méthodes apprises à certains problèmes de traitement de la parole, tels que l'estimation de la hauteur tonale, la synthèse vocale. PCK
003 Décrire et expliquer les principes de la reconnaissance de formes en relation avec la reconnaissance de la parole, y compris l'extraction de caractéristiques, la déformation temporelle dynamique, la modélisation de Markov cachée, les modèles de mélange gaussien, la maximisation des attentes, les modèles de langage et leur application à la reconnaissance de la parole continue à grand vocabulaire KPT
004 Formuler et analyser des solutions aux problèmes HMM, tels que le calcul de vraisemblance simple, l'identification de la séquence d'états optimale et la ré-estimation des paramètres KCT
005 Appliquer la théorie HMM à des tâches pratiques de reconnaissance vocale. PC
006 Évaluer un système de vérification du locuteur sur la base de mesures objectives de ses caractéristiques de fonctionnement. KCPT
Attributs développés C - Cognitif/analytique K - Connaissance du sujet T - Compétences transférables P - Compétences professionnelles/pratiques
This course does not have any sections.

More Courses by this Instructor


Proud of NASCAR and its supporters and fans. They won put up with disrespecting our Country or our Flag they said it loud and clear! words Friday and Saturday sparked a massive show of defiance Sunday as more than 200 NFL players protested by choosing not to stand for the national anthem. Many coaches locked arms with the players. Goal was to provide cheap china jerseys open dialogue and communication. We listened to one another. We believe it the best way to work through any issue we are facing, on and off the field, owners Terry and Kim Pegula said in a statement distributed by the Bills. Trump remarks were divisive and disrespectful to the entire NFL community, but we tried to use them as an opportunity to further unify our team and our organization. Our players have the freedom to express themselves in a respectful and thoughtful manner and we all agreed that our sole message is to provide and to promote an environment that is focused on love and equality. "Within hours, cheap jerseys certainly, and probably less, the Ranger regiment officers, high ranking officers back in the States were conspiring to cover this up," Krakauer says. military's highest honors, immediately began moving through the Army ranks something that is not done cheap nfl jerseys for deaths by friendly fire, Krakauer says. 'Prairie niggers' is an insult. Those are very upsetting to our kids. But 'Redskins' is an honorable name we wear with pride. He wondered how to tell the Willpinit Redskins the "name they wear proudly across their chests is insulting them. Because they have no idea.". According to the "Princeton Review," there are no prerequisites for sports management positions, but most general managers in the NFL have similar backgrounds as former scouts, accountants or athletes.Start in SchoolGMs in the NFL must have a passion for the game. They typically have experience either playing or coaching football. "This pro football has been personally hand cheap china jerseys signed by Hall of Fame defensive tackle Joe Greene with the inscription ""HOF 87"". This product is officially licensed by the National Football League and comes with an individually numbered; tamper evident hologram from Mounted Memories. To ensure authenticity, the hologram can be reviewed online. This oakley sunglasses sale process helps to ensure that the product purchased is authentic and eliminates any possibility of duplication or Retro Jordans fraud. " Setting Point Spreads, OddsOddsmakers do more than predict the outcome of games. They weigh myriad factors to determine which team is favored by how many points. In individual sports or group events, they set odds on which individual or team is most likely to win. They set odds that spread the betting encouraging bets on the underdogs and discouraging bets on heavy favorites. Their goal is to create higher betting volume and more wins than losses for the sports cheap jerseys book.
Need Help? Chat with us