Tout savoir sur les voice user interface

À l’ère de l’innovation technologique, les interfaces conversationnelles occupent une place prépondérante dans nos interactions avec les machines et les appareils. L’une des formes les plus avancées, basées sur la voix, est la Voice User Interface. Grâce à la reconnaissance et à la synthèse vocale, cette technologie a ouvert de nouveaux horizons. Une avancée significative dans le domaine de l’accessibilité numérique, car elle ouvre le champ des possibilités pour l’ensemble des utilisateurs, y compris ceux en situation de handicap.

Qu’est-ce qu’une voice user interface (VUI) ?

La VUI est une technologie qui permet aux utilisateurs d’interagir avec leurs appareils et leurs systèmes en utilisant des commandes vocales, sans recourir à un clavier, une souris ou un écran tactile. Ils communiquent avec la machine grâce à leur voix, et vivent ainsi une expérience d’interaction plus naturelle et intuitive. 

Retour sur l’histoire et l’évolution des interfaces utilisateur vocales

Le premier système de reconnaissance vocale, Audrey, a été inventé par K. H. Davis, R. Biddulph et S. Balashek en 1952. Ce système analogique complexe était capable de reconnaître les chiffres de 0 à 9. Elle demandait à l’utilisateur de réciter des chiffres dans un téléphone. Elle triait alors les sons pour comprendre l’entrée puis répondait avec une lumière clignotante. Audrey nécessitait toutefois une voix familière pour maintenir son niveau de précision. En 1971, grâce au programme de recherche Speech Understanding, financé par le Département de la Défense américain, la technologie vocale a connu une avancée considérable. IBM a alors développé Tangora, une machine à écrire activée par la voix capable de comprendre environ 20 000 mots. Aujourd’hui, des assistants vocaux comme Amazon Alexa, Apple Siri, et Google Assistant, utilisent des technologies d’Intelligence Artificielle (IA).

Comment fonctionne une interface utilisateur vocale ?

À l’origine, l’interface utilisateur se limitait à des formats graphiques et/ou textuels, seuls moyens de contrôler un ordinateur. On parlait alors d’interface utilisateur graphique ou Graphical User Interface, GUI, et d’interface utilisateur textuelle, TUI ou Text-based User Interface. GUI, TUI et VUI partagent une caractéristique commune, la conception de l’expérience utilisateur ou UX Design. Dans le contexte des VUI, différentes technologies d’IA sont mises en œuvre.

Reconnaissance automatique de la parole, ou Automatic Speech Recognition

Cette technologie est utilisée pour convertir la parole humaine en texte. Devant une entrée audio, elle va filtrer les bruits parasites et identifier la parole humaine. Les défis incluent les distorsions audio et la connectivité continue. L’utilisation de modèles probabilistes et de Deep Learning permet de traiter et distribuer des informations pour collecter des données.

Reconnaissance d’entités nommées ou Name Entity Recognition (NER)

La NER aide à classifier les mots en fonction de leur entité sous-jacente. Par exemple, si l’utilisateur demande « Obtenir des informations sur Paris », « Paris » sera identifié comme un lieu. Au-delà des lieux, elle localise des entités ou des textes semi-structurés pouvant correspondre à une personne, un sujet ou un terme spécifique. Les modèles probabilistes préentraînés utilisent les autres mots du texte pour établir la valeur de l’entité. 

La synthèse vocale ou Speech Synthesis

La synthèse vocale convertit un texte écrit en une voix humaine artificielle. Son fonctionnement s’articule autour de trois étapes : la saisie du texte, le traitement par des algorithmes d’IA, et la restitution vocale, ou texte-parole (TTS ou Text-To-Speech). La machine est alors capable d’énoncer un contenu textuel en utilisant une voix simulée diffusée par des haut-parleurs. Les technologies de synthèse vocale sont capables de reproduire la parole humaine, en ajustant l’intonation, la hauteur et la cadence pour produire un rendu sonore naturel.

Intelligence artificielle vocale ou interface utilisateur vocale ?

Les termes sont souvent utilisés de manière interchangeable. L’interface utilisateur vocale concerne l’expérience de l’utilisateur sur un appareil. L’IA vocale est un terme parapluie désignant les différentes technologies de reconnaissance vocale.

Quels sont les avantages d’une voice user interface ?

La VUI présente de nombreux avantages, notamment parce qu’elle contribue à améliorer l’expérience utilisateur, l’accessibilité et l’efficacité.

Une interaction fluide tout en conservant les mains libres

C’est l’un des avantages les plus évidents des interfaces utilisateur vocales. Elle rend
possible l’utilisation d’une application en gardant les mains libres. Dans certains cas, comme lorsque vous conduisez, faites la cuisine ou simplement lorsque vous êtes loin de votre appareil, il peut s’avérer beaucoup plus pratique de parler que de taper ou de cliquer.

Utiliser les outils vocaux pour gagner en efficacité et en productivité

Les UI vocales permettent à l’utilisateur de concentrer son attention sur une autre tâche, tout en améliorant la sécurité et la productivité. En entreprise par exemple, le fonctionnement mains libres et sans distraction d’une interface vocale peut permettre de réduire le risque d’accidents du travail. Cette technologie peut également aider les utilisateurs à effectuer plusieurs tâches à l’intérieur d’une application. Dans un jeu vidéo, les joueurs peuvent ainsi changer une caméra ou changer d’arme sans naviguer dans les menus profonds.

Interface utilisateur vocale et accessibilité

Une voice user interface se révèle particulièrement bénéfique pour les individus en situation de handicap. Ces derniers peuvent éprouver des difficultés avec les interfaces traditionnelles nécessitant l’utilisation d’un clavier ou d’un écran tactile. Pour les personnes ayant des déficiences visuelles, motrices, ou cognitives, elle facilite leurs interactions avec les appareils technologiques.

La VUI est aussi de plus en plus populaire auprès des personnes âgées, peu familiarisées avec les nouvelles technologies. Le vieillissement ayant des effets sur les capacités sensorielles, la mobilité et la mémoire, une interface vocale est une alternative à l’assistance directe. Les dispositifs vocaux contribuent à rendre la technologie accessible au plus grand nombre et favorisent l’inclusion sociale.

Dans quels cas de figure utiliser une VUI ?

Les interfaces utilisateur vocales se montrent particulièrement utiles dans de nombreux contextes, autant de la sphère privée que dans les entreprises et les organisations. 

Les systèmes de contrôle des maisons connectées

En domotique, une interface utilisateur vocale contribue à améliorer le confort, l’efficacité et la convivialité de l’habitat. Les utilisateurs peuvent contrôler les différents dispositifs, comme l’éclairage, le chauffage, la sécurité, et créer des scénarios personnalisés. La gestion peut se faire à distance, pour une expérience utilisateur évolutive et adaptée aux besoins individuels en temps réel. Les VUI rendent les maisons intelligentes plus intuitives, plus réactives et plus économes en énergie.

Les assistants vocaux comme Alexa d’Amazon, Google Home Assistant et Siri d’Apple peuvent être intégrés à des systèmes domotiques, ce qui permet de mettre en place une interaction vocale avec l’ensemble de l’écosystème domestique.

Les voitures intelligentes à commandes vocales

Dans le contexte de la conduite automobile, la VUI favorise les interactions sans distraction. Elle contribue à améliorer la sécurité routière en permettant aux conducteurs de contrôler les différentes fonctions du véhicule avec leur voix. L’utilisateur peut gérer ses appels téléphoniques, contrôler des médias ou encore afficher son itinéraire, sans quitter le volant ni détourner son regard de la route. Les VUI rendent l’expérience de conduite plus sécurisée et pratique.

L’automatisation des tâches en entreprise à l’aide de la VUI

Les interfaces vocales VUI peuvent simplifier de nombreuses activités comme : 

  • la gestion du calendrier, des réunions et la prise de notes ; 
  • le traitement des e-mails ;
  • la formation et l’assistance ; 
  • l’automatisation des processus métier et le suivi des tâches ; 
  • les interactions avec les systèmes et outils professionnels.

En intégrant ce type d’assistant vocal dans les opérations quotidiennes, les entreprises peuvent améliorer l’efficacité, réduire les erreurs, et offrir aux utilisateurs une expérience plus fluide.

Les applications de service client automatisé

Les interfaces vocales permettent d’automatiser efficacement les interactions avec les clients, contribuant ainsi à réduire le temps d’attente en ligne. Elles facilitent également l’automatisation des transactions. Les clients peuvent ainsi accomplir certaines tâches de manière autonome, comme le suivi de commandes ou le paiement de factures. 

Quels sont les défis de la voice user interface ?

L’une des préoccupations majeures est liée à la protection de la vie privée. Les dispositifs VUI étant presque toujours connectés, toutes les informations partagées par les utilisateurs peuvent être compromises. La VUI doit encore évoluer pour comprendre des commandes et des requêtes de plus en plus complexes, des contextes variés et des nuances linguistiques plus fines. L’appareil ou l’assistant doit être capable de comprendre et interpréter correctement différentes langues, mais surtout différents accents. De plus, chaque individu ayant une voix unique, il doit s’adapter aux différentes variations. 

Avec la montée en puissance des assistants vocaux et de la reconnaissance vocale, des compétences de conception de VUI et d’UI design peuvent être des atouts majeurs, notamment dans le domaine de l’Intelligence Artificielle. L’IA School propose une formation en IA complète, de Bac+1 à Bac+5 permettant d’acquérir l’ensemble des savoir-faire requis pour travailler dans ce secteur porteur