Traitement et reconnaissance du parole et de l’audio

Course Features

Course Instructor: belhabib

Catégorie:Ingénierie des connaissances, Ingénieur Informatique

Viewers: 1144

Students: 1

Code: GINML5

Course Details

Traitement et reconnaissance du parole et de l’audio GINML5

Enseignant:

Email:

Durée totale du cours: 22.5 H

Semestre : 5

Option ingénierie des connaissances

Nombre de crédits : 2

Modules spécialisés	Modules de base	Sciences et techniques de l'ingénierie	Préparation à la carrière professionnelle
X		X

Nombre d’heures	Activités hors classe
22.5	18

Code

: GINML5

TRAITEMENT ET RECONNAISSANCE DE LA PAROLE ET DE L'AUDIO

Volume Horaire : 01h:30 Cours intégrés + Travaux pratiques (par semaine)

Aperçu

Formations préalables attendues : Traitement numérique du signal ou formation équivalente en traitement du signal.

Objectif du module : Éduquer les étudiants aux aspects particuliers du traitement et de la reconnaissance de la parole, avec des concepts, des problèmes d'ingénierie, des exemples concrets et des simulations informatiques. Le module traite des concepts de base, des méthodes de traitement du signal et des applications d'interaction homme-machine du traitement et de la reconnaissance de la parole, y compris la perception auditive et la psychoacoustique. Vous apprendrez comment extraire les caractéristiques saillantes des signaux vocaux, comment concevoir un modèle de langage parlé, comment effectuer la reconnaissance et la formation, et vous aurez un aperçu des recherches actuelles sur la reconnaissance vocale spontanée, telles que l'adaptation du locuteur et les solutions de robustesse à bruit. Des démonstrations, des illustrations intéressantes et des exemples de travail seront donnés. Les étudiants qui réussissent peuvent soit poursuivre des études doctorales, soit obtenir des emplois dans les départements R&D de l'industrie, c'est-à-dire des emplois qui sont à un niveau supérieur à celui de simples opérateurs de progiciels. Les techniques présentées ont de nombreuses autres applications au-delà de la parole,

Contenu du cours

Le contenu indicatif comprend les éléments suivants.

Composante du cours Traitement de la parole et de l'audio Introduction Parole et langage. Traitement numérique de la parole. Applications de traitement de la parole. Caractéristiques des signaux de parole. Production de la parole Description de l'appareil vocal. Modèle source-filtre. Origine de la périodicité, formants et anti-résonance en termes de modèle physique. Modèle numérique omnipolaire du conduit vocal. Relation entre modèle physique et phonèmes. Perception de la parole La structure de l'oreille. Réponse en fréquence et en amplitude de l'oreille. Unités de perception. Techniques de traitement du signal Autocorrélation des signaux vocaux. Estimation de hauteur à partir de signaux vocaux. Analyse de Fourier du signal de parole. Spectrogramme et densité spectrale de puissance. Analyse spectrale de la parole voisée et non voisée. Analyse spectrale des formants et des antirésonances. Structure harmonique du discours. Prédiction linéaire Transformation en Z. Fonction de transfert des voies vocales. Stabilité de la fonction de transfert. Concept et modèle de prédiction linéaire. Filtre source omnipolaire. Sélection de l'ordre et sa relation avec l'erreur de prédiction. Estimation des coefficients LPC. Synthèse vocale à partir des coefficients LPC. Filtrage inverse du signal de parole Séparant la source de l'excitation. Réponse des voies vocales – estimation du format. Estimation de la hauteur à partir du résidu. Prédiction linéaire robuste. Déconvolution cepstrale Définition du vrai cepstre. Transformer la convolution en somme par opération non linéaire. Le logarithme complexe. Le cepstre complexe. L'unité de fréquence. Estimation de hauteur via le cepstre. Comparaison de l'enveloppe spectrale avec celle issue de la prédiction linéaire. Enregistrement audio et acoustique Types de microphones et modèles de directivité, acquisition audio numérique, propagation des ondes et acoustique, effets de réflexions et de réverbération. Psychoacoustique Perception de la sonie, perception de la hauteur, masquage auditif, perception du timbre, audition spatiale. Lecture Composant Reconnaissance automatique de la parole Introduction Communication vocale humaine. Le rôle de l'ASR dans l'interaction homme-machine. Fondamentaux de la phonétique et de la perception de la parole. Extraction de caractéristiquesAcoustique des voies vocales et prédiction linéaire. Cepstre de fréquence Mel. Caractéristiques de différence. Correspondance de modèle Déformation dynamique du temps. Reconnaissance des mots isolés et des mots connectés. Rechercher l'élagage. Modèles de Markov cachés Modèles de Markov et topologies d'état. Formule HMM. Fichiers PDF à sortie discrète et continue. Reconnaissance et décodage de Viterbi Diagrammes en treillis. Probabilités avant et arrière. Vraisemblances cumulées et retraçage. Apprentissage automatique par maximisation des attentes Formation Baum-Welch : dérivation et implémentation. Reconnaissance vocale continue à grand vocabulaire Modélisation et actualisation du langage. Sensibilité au contexte et liaison de paramètres. Adaptation et robustesse Adaptation au locuteur : méthodes MLLR et MAP. Robustesse au bruit : soustraction spectrale et combinaison de modèles parallèles. Méthodes d'enseignement / d'apprentissage

Enseignement frontal (magistral) avec des exemples à résoudre en
Exercices théoriques et études de cas (présentation et discussion).
Travaux à faire à domicile (mini-projet, exposé, compte-rendu, …)

La stratégie d'apprentissage et d'enseignement est conçue pour atteindre les objectifs suivants :

Offrir une formation générale en ingénierie dans les domaines du traitement de la parole, de l'apprentissage automatique, du traitement du langage parlé, de la reconnaissance des formes et de la psychoacoustique.
Développer des compétences analytiques et informatiques à l'aide de techniques avancées. Promouvoir la confiance technique par l'élaboration de techniques spécialisées associées au traitement et à la reconnaissance de la parole.
Fournir une expérience des outils logiciels couramment utilisés en rapport avec le traitement de la parole et du signal audio et avec certaines techniques d'apprentissage automatique.
Cultiver des compétences transférables en prise de notes, représentation des connaissances, rédaction technique, gestion du temps et conduite professionnelle.

Les méthodes d'apprentissage et d'enseignement comprennent les éléments suivants. Conférences

Discussion en classe intégrée au cours magistral
Problèmes conçus en classe
Mission sous forme de simulations informatiques et de rapports
Cours de révision programmés qui démontrent les principes de la théorie dans des exemples concrets quantitatifs et préparent les étudiants à l'examen écrit.

Connaissances et compétences pré-requises

Traitement numérique du signal ou formation équivalente en traitement du signal

Références bibliographiques

Un polycopié (Notes du cours) de l’enseignant sera
https://readinglists.surrey.ac.uk

Stratégie d'évaluation

La stratégie d'évaluation de ce module est conçue pour fournir aux étudiants la possibilité de démontrer les résultats d'apprentissage. Le devoir de simulation informatique évaluera les compétences techniques et l'expertise des étudiants dans la conception d'un système simple de synthèse/reconnaissance de la parole en appliquant les méthodes et les concepts discutés au cours. L'examen écrit évaluera les connaissances et la compréhension des étudiants des principaux concepts de traitement et de reconnaissance de la parole et de l'audio, ainsi que leur capacité à utiliser ces connaissances (telles que le codage prédictif linéaire) pour résoudre certains problèmes de base de la modélisation et de l'analyse de la parole (tels que le formant estimation de la fréquence). Ainsi, l' évaluation sommative pour ce module comprend les éléments suivants. · Le devoir de traitement de la parole (20 %) est une expérience informatique sur la synthèse vocale. Les étudiants sont tenus de soumettre un rapport (en copie électronique) d'une longueur d'au moins 1000 mots (hors figures, tracés et tableaux) (longueur flexible en termes de pages, 5-30 pages de format A4), accompagné de code de programmation (tel que le code Matlab) et des échantillons audio synthétisés en copie électronique, avant la date limite mardi de la semaine 7. · Le devoir de reconnaissance vocale (20%) est une expérience informatique sur la reconnaissance vocale. Les étudiants sont tenus de soumettre un rapport (en copie électronique) avec des solutions aux questions posées en termes de tâche de reconnaissance vocale, avant une date limite. · L'examen (60 %) offre un choix limité de sujets pour s'assurer qu'une bonne couverture des connaissances spécialisées est testée lors d'un examen écrit. Les questions sont conçues pour évaluer les résultats à différents niveaux cognitifs, en commençant souvent par relier les connaissances, puis en formulant un problème, en effectuant une analyse et en réfléchissant au résultat. Évaluation formative et rétroaction Pour le module, les étudiants recevront une évaluation/rétroaction formative des manières suivantes. · Pendant les cours magistraux, par des séances de questions-réponses · Pendant les cours magistraux, par des discussions de groupe · Pendant les cours d'exemples travaillés/révisions · Au moyen de problèmes de tutorat non évalués (avec réponses/solutions modèles) · Via la notation du devoir, à la fois les soumissions de fichiers électroniques et les rapports écrits

Modalité d’évaluation

40% Contrôle continu (TP noté, Test, Assiduité, Devoir surveillé, travaux non présentiel, …)
60% Examen

Résultat d'apprentissage :

À la fin du cours, vous devriez être capable de :

001	Démontrer une compréhension systématique des principaux concepts de traitement et de reconnaissance de la parole et de l'audio.	K
002	Appliquer les concepts et les méthodes apprises à certains problèmes de traitement de la parole, tels que l'estimation de la hauteur tonale, la synthèse vocale.	PCK
003	Décrire et expliquer les principes de la reconnaissance de formes en relation avec la reconnaissance de la parole, y compris l'extraction de caractéristiques, la déformation temporelle dynamique, la modélisation de Markov cachée, les modèles de mélange gaussien, la maximisation des attentes, les modèles de langage et leur application à la reconnaissance de la parole continue à grand vocabulaire	KPT
004	Formuler et analyser des solutions aux problèmes HMM, tels que le calcul de vraisemblance simple, l'identification de la séquence d'états optimale et la ré-estimation des paramètres	KCT
005	Appliquer la théorie HMM à des tâches pratiques de reconnaissance vocale.	PC
006	Évaluer un système de vérification du locuteur sur la base de mesures objectives de ses caractéristiques de fonctionnement.	KCPT

Attributs développés C - Cognitif/analytique K - Connaissance du sujet T - Compétences transférables P - Compétences professionnelles/pratiques

info@suptech.tn

+21626050051

22, Avenue de Madrid, 1001 Tunis

info@suptech.tn

+216 26051051
Fax : +216 71 24 7 1 60

Traitement et reconnaissance du parole et de l’audio

Course Features

Course Details

Traitement et reconnaissance du parole et de l’audio GINML5

Enseignant:

Email:

Durée totale du cours: 22.5 H

Semestre : 5

Option ingénierie des connaissances

Nombre de crédits : 2

Aperçu

Formations préalables attendues : Traitement numérique du signal ou formation équivalente en traitement du signal.

Contenu du cours

Le contenu indicatif comprend les éléments suivants.

Connaissances et compétences pré-requises

Références bibliographiques

Stratégie d'évaluation

Modalité d’évaluation

Résultat d'apprentissage :

More Courses by this Instructor

Systèmes d’exploitation avancés Linux 2

NoSQL Database Systems

Datawarehouse & Business Intelligence

info@suptech.tn

+21626050051

CONTACT

Traitement et reconnaissance du parole et de l’audio

Course Features

Course Details

Traitement et reconnaissance du parole et de l’audio GINML5

Enseignant:

Email:

Durée totale du cours: 22.5 H

Semestre : 5

Option ingénierie des connaissances

Nombre de crédits : 2

Aperçu

Formations préalables attendues : Traitement numérique du signal ou formation équivalente en traitement du signal.

Contenu du cours

Le contenu indicatif comprend les éléments suivants.

Connaissances et compétences pré-requises

Références bibliographiques

Stratégie d'évaluation

Modalité d’évaluation

Résultat d'apprentissage :

More Courses by this Instructor

S'INSCRIRE À LA NEWSLETTRE