La reconnaissance vocale

La reconnaissance vocale fait déjà largement partie de notre quotidien et elle ne cesse d’évoluer et de proposer de nouvelles applications. Les améliorations constantes des technologies vocales intéressent donc les particuliers aussi bien que les entreprises.

La reconnaissance vocale : Définition

Le terme exact afin de désigner la reconnaissance vocale est celui de reconnaissance automatique de la parole. Les deux expressions sont synonymes et recouvrent la même réalité technologique. Le principe de cette reconnaissance consiste à ce qu’une machine capte le son de la voix humaine et qu’elle parvienne à identifier un lexique. La machine peut ensuite retranscrire la voix sous la forme de texte. Cette technique comprend un microphone qui transmet à un système informatique les données. Celles-ci sont ensuite redonnées à l’utilisateur car la machine peut ainsi reconnaître les mots. Dans cette dernière étape, la machine est alors en mesure d’exploiter les informations, en fonction des demandes qui lui sont faites.

reconnaissance vocale de Google

Quels sont les origines de la reconnaissance vocale ?

Les premières tentatives de reconnaissance automatique de la parole ont eu lieu en 1952, sous une forme alors très réduite. Les travaux de Davis, Biddulph et Balashek permettaient à ce stade de reconnaître des chiffres isolés.

De cette première étape, a découlé en 1961 la création d’un appareil qui avait la capacité d’identifier des phonèmes. Son inventeur, J. Dreyfus-Graff, obtint ainsi de bons résultats avec son phonétographe. L’avancée suivante est due à Fredrick Jelinek, un chercheur spécialisé en reconnaissance automatique de la parole. En intégrant IBM en 1972, il a pu contribuer au développement de Via Voice, le logiciel qui a fait la réputation de l’entreprise. Plus près de nous, depuis que les systèmes embarqués ont envahi plusieurs secteurs, la reconnaissance de la voix n’a cessé de se perfectionner.

1982 est notamment une année importante dans l’histoire des technologies vocales avec la création de la société Dragon Systems par James et Janet Baker. Leur objet d’étude portait alors sur l’observation de ce que provoque la voix sur un oscilloscope. Par la suite, en 2008, Google a intégré une application de recherche sur Internet, suivi en 2011 par Apple qui a commencé à proposer Siri sur ses téléphones. Microsoft s’est intéressé lui aussi de très près aux technologies vocales, tout comme les Belges de Lernout & Hauspie qui ont mis en place des logiciels spécialisés.

Comment fonctionne un logiciel de reconnaissance vocale ?

Un logiciel de reconnaissance automatique de la parole utilise des modèles du langage. Ces données sont en quantité considérable, ce qui nécessite qu’elles soient hébergées et stockées dans des serveurs distants. Pour y avoir accès, on passe donc par une connexion Internet.

Utlisation de la technologie de reconnaissance vocale

La qualité du micro est le premier point pour que le système fonctionne au mieux, car les logiciels ne sont pas encore totalement capables de faire le tri entre des paroles et les sons ambiants. L’intelligence artificielle s’appuie donc sur le contexte de ce qui est dit afin d’identifier les mots prononcés. En effet, face à un homophone, cette dernière manque d’informations si les phrases sont trop courtes. La phase d’apprentissage de la machine est donc le préalable pour que le logiciel puisse jouer correctement son rôle de reconnaissance de la voix. Des systèmes comme Cortana, Siri, Google Now, Alexa, Vocapia Research, Vocon Hybrid et Dragon et le Deep Learning en général mettent ainsi en œuvre des algorithmes d’intelligence artificielle.

Le voice-to-text

Dans le cas d’un texte dicté, les technologies vocales offrent un gain de temps indéniable, les logiciels étant en mesure de traduire les informations lexicales qui leur sont transmises. Ce voice-to-text crée donc un lien direct entre la voix humaine et la machine. Cette application est à l’origine de toutes les transformations que l’on connaît par exemple dans la bureautique.

Le natural language understanding (NLU)

On peut imaginer le natural language understanding comme un ensemble de briques. La compréhension de ce langage par la machine est l’aboutissement d’un processus. Un algorithme NLU analyse en effet chaque élément pris individuellement avant de mettre ensuite en lumière les liens entre les mots. C’est alors que la transcription d’un texte peut être réalisée.

L’importance de l’intelligence artificielle

L’intelligence artificielle intervient de plus en plus car les machines rendent nécessaire de pouvoir communiquer avec elles. L’enjeu est par exemple qu’un ordinateur puisse comprendre le langage humain. C’est là que le Traitement naturel du langage (TNL) a un rôle central. À terme, les progrès des technologies vocales permettront aux machines de lire, de déchiffrer et de comprendre notre langage. Les avancées autour de l’intelligence artificielle ouvrent ainsi des perspectives tout à fait inédites. On peut donc considérer que ce domaine n’en est encore qu’à ses débuts.

Les applications de la reconnaissance automatique de la parole

À l’heure actuelle, les applications sont déjà nombreuses dans notre vie quotidienne. Ainsi, la plupart des téléphones portables ou des appareils photo numériques font appel au système du dictaphone. En fait, dès qu’un de ces appareils contient un micro – comme c’est aussi le cas dans un ordinateur ou une tablette tactile –, la reconnaissance vocale est mise en action. A priori, les logiciels sont amenés à développer leurs potentiels, les applications pourront ainsi devenir encore plus pointues. Le domaine de la traduction bénéficie également de ces technologies.

robot conversationnel siri

La reconnaissance vocale : des enjeux d’avenir dans les entreprises

Les entreprises sont les premières bénéficiaires de ce nouveau moyen de communication. Les particuliers ont aussi à leur disposition des outils qui transforment le rapport à l’informatique. Il est en effet possible de rédiger tout type de document sans avoir à utiliser un classique clavier. Cette facilité de transmission de la parole au texte apporte un confort inédit.

C’est aussi et surtout une technologie qui vient au service des personnes handicapées ou pour qui l’usage intensif d’un clavier est douloureux physiquement. Des outils tels que Windows Vista ou Dragon NaturallySpeaking permettent par exemple de faire fonctionner un ordinateur uniquement en s’appuyant sur la commande vocale.

De nombreuses entreprises du secteur tertiaire sont déjà largement équipées. Ainsi, la reconnaissance vocale est employée par les bureaux d’études, le domaine de la justice ou la médecine. Ce secteur est d’ailleurs l’exemple même de ce que peut apporter cette nouvelle technologie. Le traitement des rapports médicaux et de l’ensemble des comptes rendus se fait désormais bien plus rapidement.

L’enjeu pour les entreprises est donc d’intégrer à plus grande échelle ce type d’équipement. L’intervention humaine est toujours indispensable pour porter un œil expérimenté et déceler une éventuelle erreur. En revanche, la rapidité d’exécution des tâches est considérablement améliorée. Il est ainsi possible de se consacrer plus spécifiquement au cœur d’un métier tout en gagnant du temps sur les étapes de réalisation des documents.

assistant vocal google

La domotique fait aussi partie des secteurs où de véritables révolutions s’opèrent de plus en plus. Mais la liste est loin d’être exhaustive, les entreprises ayant toutes à un moment donné une relation avec la reconnaissance vocale. La biométrie vocale fait aussi partie des nouvelles applications, tout comme des améliorations du rapport service client dans le domaine du e-commerce ou les voitures connectées qui deviennent une habitude.

Le domaine de la reconnaissance vocale est en pleine évolution et il se manifeste par des progrès constants. C’est pourquoi il est intéressant de suivre de très près l’actualité de ce secteur. L’événement phare de la reconnaissance vocale, Voice Tech Paris a lieu les 23 et 24 novembre 2021 en 100% digital. C’est l’occasion d’assister à des conférences d’experts du secteur de la Voice Tech mais aussi d’écouter des retours d’expérience d’entreprises ayant intégré ces technologies au cœur de leur stratégie de développement. Les enjeux sont en effet de tout premier ordre pour les entreprises.

jp

Le blog d'un geek addict au web et au high-tech !