Reconnaissance de la Parolede PROMOTIC| JobPaw.com

Reconnaissance de la Parole


Quelles sont les applications de la reconnaissance de la parole ?
Dans beaucoup de situations, l’homme doit s’adresser à une machine pour satisfaire ses besoins. La reconnaissance de la parole est une interface vocale issue du traitement automatique de la parole qui permet à l’homme d’obtenir des réponses d’une machine ou d’un système dans différentes situations de la vie.
Qu’est ce que la reconnaissance de la parole ? Comment fonctionne-t –elle ? Quelles sont ses applications ?

Mise en contexte
La reconnaissance de la parole désigne l’ensemble des technologies permettant à une machine de reconnaitre la parole. Les technologies de reconnaissance de la parole modernes sont basées sur une analyse des phonèmes de la phrase prononcée.1
La reconnaissance automatique de la parole est une technique informatique qui permet d’analyser un mot ou une phrase captés au moyen d’un microphone pour la transcrire sous la forme d’un texte exploitable par une machine.2
Comme la synthèse de la parole, la reconnaissance de la parole fait appel aux mathématiques, au traitement du signal, à la théorie de l’information, à l’informatique, à l’intelligence artificielle, à la phonétique, à la linguistique, aux sciences cognitives et aux neurosciences pour son fonctionnement.
De façon simple, cette interface Homme – machine qu’est la reconnaissance de la parole est exploitée par exemple par les compagnies aériennes pour desservir à distance les clients qui appellent. Cette machine invite le client en lieu et place d’un agent humain à exprimer ses besoins et poser des questions. Le client choisit dans un menu proposé par le système le type de besoins à satisfaire. S’il s’agit par exemple de réserver un billet d’avion, la machine demande au client de dire la ville de départ et la ville de destination, le jour et l’heure du voyage. Le client s’exprime à partir de son téléphone, et la machine « comprend ». Après chaque mot répété par le client, la machine le fait à son tour pour s’assurer que c’est le vrai mot en raison de la variance existant entre la prononciation de chaque client et celle enregistrée dans le système. Cet exercice se répète jusqu'à la fin du traitement de la demande du client.
S’il y a une incompréhension entre le client et la machine à cause d’une prononciation non standard du client ou la machine n’arrive pas à traiter une demande compliquée, le traitement du cas est automatiquement transféré à un agent humain qui s’occupe du client en ligne.
Contrairement à la synthèse de la parole qui est déjà une réalité en Haïti, la reconnaissance de la parole n’est pas encore utilisée par les compagnies pour servir les clients à distance.
Principes de fonctionnement de la reconnaissance vocale
Les vibrations sonores du client qui frappent le microphone sont converties en signal électrique, puis numérisé et transmis à travers le réseau jusqu'à la machine. Le signal sonore électrique est transformé, par la suite, en unités acoustiques ou vecteurs acoustiques. A ce stade, le moteur de la reconnaissance de la parole analyse cette suite d’unités acoustiques en la comparant avec celles stockées en sa mémoire (modèle de langage) et propose au locuteur aux fins de vérification et de confirmation de la suite qui parait la plus probable. La nécessité pour l’utilisateur de la reconnaissance de la parole d’avoir une prononciation standard s’impose pour que l’interface homme - machine réussisse.
La reconnaissance de la parole (comparaison des mots répétés à ceux stockés dans la machine) comprend trois étapes :
Le capteur qui s’occupe de l’appréhension du phénomène physique, par exemple, le microphone
La paramétrisation des formes qui débouche sur une empreinte, c'est-à-dire, la caractéristique du son (Temps/Fréquence/Intensité).
Et finalement l’identification des formes consiste à classer une forme inconnue dans l’une des catégories possibles.
Le système de reconnaissance de la parole est basé sur trois principaux modèles : Modèle acoustique, modèle de prononciation et modèle de langage.

Classifications de la reconnaissance de la parole
Trois critères permettent de distinguer les moteurs de la reconnaissance de la parole :
1.- Le premier critère est le type de discours reconnu ou continuous speech par le logiciel. Il peut s’agir des mots qui sont prononcés isolément, c'est-à-dire, séparés par des périodes de silence ou du discours qui se fait en continu et permet ainsi une prononciation naturelle
2.- Le deuxième critère fait une distinction entre les moteurs de reconnaissance fonctionnant uniquement sur les mots, et ceux fonctionnant sur les phrases complètes
3.- Le troisième critère est lié au degré de dépendance vis-à-vis du locuteur.
Dans ce cadre, il y a, d’une part, le système monolocuteur : système adapté ou adaptable via un processus d’entrainement à un locuteur particulier (« Speaker dependent ») et d’autre part, le système multilocuteurs (Speaker independent) : C’est une reconnaissance de la parole fonctionnant pour tout un groupe de locuteurs.1

Applications de la reconnaissance de parole
Les grands domaines d'application sont: dictée, commandes, télécommunications, télématique, traduction, conversion de texte en messages, jeux de vidéo, etc.
Les principales utilisations sont les suivantes :
• télématique et services vocaux : composeur vocal, serveurs vocaux interactifs, service PCV, consultation de messagerie vocale, majordome d'accueil vocal téléphonique, etc.
• bornes interactives : renseignements sur les horaires (train, avion, bateau) et prise de réservations
• bureautique : services télématiques vocaux et commandes vocales d'éditeur
• contrôle de qualité et saisie de données : l'interface vocale libère la vue et les mouvements, l'utilisateur peut donc se déplacer librement pour manipuler des objets ou entrer des données
• aide à la conception graphique : système d'interaction multimodale, incluant parole, geste et vision
• avionique : permet aux pilotes une meilleure attention visuelle
• identification/vérification du locuteur : pour assurer une meilleure sécurité pour l'accès en direct à des bases de données confidentielles
• aide à la navigation en voiture : permet le positionnement du véhicule, la planification de l'itinéraire et notamment le guidage du conducteur par des messages vocaux
• aide à la formation : apprentissage des langues, de la lecture, formation des contrôleurs aériens (meilleure connaissance de la phraséologie spécialisée du domaine)
• aide au handicap : aide à la rééducation de la voix, contrôle d'objets de l'environnement pour les tétraplégiques, consultation de documents pour les aveugles (tâches d'édition et de consultation)
• dictée automatique ou entrée vocale de textes : contrôle d'un microscope, interrogation vocale d'une base de données, constitution automatique de rapports médicaux par dictée vocale
• traduction automatique : de conversations téléphoniques avec un interlocuteur de langue étrangère.3


Avantages de la reconnaissance de la parole
• Service à la clientèle à distance
• Réduction des interventions humaines dans le traitement des demandes de la clientèle
• Traitement rapide et automatique des demandes
• Possibilité de commander les systèmes avec la voix quand les mains sont occupées
• Possibilité de commander et de contrôler les systèmes à distance
• etc

Défis de la reconnaissance de la parole
L’un des principaux défis de la reconnaissance de la parole est la prononciation standardisée des locuteurs. De nombreux facteurs ont une influence sur la prononciation de chaque mot, ce qui est la cause d’un décalage énorme entre la prononciation stockée dans les systèmes et celles de chaque locuteur. Les marges de prononciation laissées ne sont suffisantes pour que les systèmes puissent interpréter les différentes prononciations attribuées à un même mot.
La vocalisation peut varier grandement en termes d’accent, de prononciation, d’articulation, de rudesse, de nasalité, de hauteur, de volume, et vitesse. Pendant la transmission, les structures des discours peuvent être déformées par les bruits en arrière – plan et échos, aussi bien par les caractéristiques électriques des équipements utilisés. Toutes ces sources de variabilité rendent la reconnaissance de la parole, même plus que la génération de discours, un problème très complexe.

Conclusion
Des millions de personnes à travers le monde profitent des applications de la reconnaissance de la parole dans leurs activités quotidiennes. Cette interface homme – machine comme la synthèse de la parole fait de plus en plus l’objet d’une utilisation accrue en raison de l’engouement des utilisateurs à exploiter les outils technologiques multimédia.
La transcription linguistique et la compréhension d’une parole spontanée prononcée par n’importe quel locuteur est un véritable défi.
La reconnaissance de la parole et la synthèse de la parole qui permettent à l’homme d’interagir en temps réel avec les machines n’est pas sans conséquence sur la deshumanisation des relations humaines.

Références
1.- www.auralog.com/.../Doc-RecoVocale

2.- Encyclopedie libre Wikipedia

3.- deptinfo.unice.fr/twiki/pub/Linfo/.../Benguigui-Ismais-Hamdan

Rubrique: TIC
Auteur: PROMOTIC | gregorydomond@hotmail.com
Date: 21 Avril 2011
Liste complète des mémoires et travaux de recherche