Tuto assistant vocal Saison 01 Episode 02

Deuxième épisode de notre série de tutoriaux pour apprendre à réaliser un assistant vocal, des bases jusqu’au développement de services complets. Apprenez étape par étape la programmation d’applications vocales.

Episode 02 : 10 minutes pour commencer à dialoguer, utiliser des variables et bientôt des acteurs…

Salamalecs + SNIPS – GAFAMI

Vous connaissez certainement SNIPS, la start-up française rendue célèbre par les déclarations chocs de son cofondateur Rand Hindi.

Sa technologie embarquée garantit un respect de la vie privée des utilisateurs en analysant leurs requêtes vocales en local, sur l’appareil, et non pas en utilisant les plateformes cloud des GAFAMI.  « Les autres acteurs améliorent leurs modèles dans le cloud, nous entraînons les nôtres dès la conception. Des contributeurs enrichissent les possibilités et nous intégrons le corpus de données constitué dans le microprocesseur. L’apprentissage est ainsi séparé de l’usage », explique Yann Lechelle, directeur des opérations. Mais créer ce corpus peut se révéler compliqué et une fois que la reconnaissance vocale fonctionne, il faut créer le code fonctionnel et y lier la gestion du vocal. Pour piloter une cafetière l’ensemble peut rester simple mais créer un assistant vocal évolué est d’un tout autre niveau de complexité !

La solution ? Marier Salamalecs & SNIPS : les corpus qui vont être reconnus par SNIPS peuvent être générés directement par Salamalecs, ce dernier prenant également en charge le développement (graphique!) du code fonctionnel.

1 + 1 = 3 !

Cette association peut simplifier drastiquement la création d’applications vocales évoluées, et en particulier les assistants vocaux à destination des professionnels.

Un exemple ? Cette application de prise de rendez-vous a été développée complètement en 3 heures. Tout compris ! Et puis pour garantir un fonctionnement sans GAFAMI, la voix ( Text to Speech) est celle de Voxygen !

Tuto assistant vocal Saison 01 Episode 01

DIY assistant vocal

Premier épisode d’une série de tutoriaux pour apprendre à réaliser un assistant vocal, des bases jusqu’au développement de services complets. Apprenez étape par étape la programmation d’applications vocales.

Episode 1 : 10 minutes pour découvrir les concepts et réaliser votre première application.

Accéder à des informations ultra-locales par n’importe quel assistant vocal.

La plateforme Salamalecs de Digital Airways est aussi utilisable pour construire des services vocaux très personnalisés à partir de contenus déjà accessibles sur le Web. Le service suivant peut-être rendu accessible par n’importe quel assistant vocal mais il a été développé pour le projet HomeKeeper dont l’objectif est de mettre l’intelligence artificielle au service d’offre locales. Les contenus ici utilisés sont ceux de Actu.fr et des 90+ journaux locaux du groupe PubliHebdo, filiale du groupe Ouest-France.   

L’intelligence artificielle est-elle stupide ?

Le pouvoir médiatique de l’oxymore « IA », Intelligence Artificielle, entraîne une cohorte de fantasmes et d’idées fausses. Il convient pourtant de prendre l’ensemble au sérieux et d’en comprendre quelques réalités pour faire des choix de société en connaissance de cause.

(Ilustration : Fille née sans mere 1916-18 – Francis Picabia )

Dans notre quotidien, nous côtoyons principalement deux branches de l’IA ou Intelligence Artificielle.

La première est l’apprentissage profond (de l’anglais deep learning, ou machine learning). Il permet à un ordinateur de produire une information non plus « à la papa », à partir d’une séquence d’instructions qu’on lui a programmée, mais par une « prise d’habitudes ».

Imaginons qu’on introduise dans un tel système, quotidiennement et pendant de nombreux jours, un ensemble de données comme l’ensoleillement de la veille, l’humidité de la veille, le vent de la veille, la température de la veille et le temps qu’il fait aujourd’hui. Après avoir fourni un grand nombre d’exemples au système – la « phase d’apprentissage» – il va arriver un moment où en ne lui fournissant que les données du jour,il va estimer la météo du lendemain avec une fiabilité acceptable.

Apprentissage ou habitude ?

Cette approche par classification est extrêmement efficace pour reconnaître des chats sur des photos, anticiper une panne mécanique sur une voiture ou savoir si un produit en bout de chaîne de fabrication est conforme ou pas.

On peut raisonnablement penser qu’elle sera vite très efficace aussi pour anticiper des maladies. Ou offrir d’autres avantages, qu’on ne détaillera pas ici.

Le principe du deep learning, c’est donc d’utiliser les« habitudes », le passé pour anticiper l’avenir. Untel système est donc par nature conformiste. Et totalement incapable de prévoir un événement qui n’est pas dans la continuité de ceux qui se sont déjà passés. En tout cas pas plus que votre voyante préférée.

Les assistants vocaux sont sur-vendus

La seconde branche principale de l’IA concerne l’interaction entre l’homme et la machine, et en particulier le traitement du langage naturel. Pour une machine,pouvoir répondre à une question posée par un homme demande trois étapes :entendre ce que l’utilisateur a dit, comprendre le sens de sa demande et répondre à son attente.

C’est en utilisant le deep learning que les géants de l’internet ( Google, Facebook, Microsoft, IBM, Apple, Amazon,…) ont récemment fait d’énormes progrès sur la première étape. En entraînant leurs algorithmes avec les demandes que nous formulons tous à leurs systèmes, ces derniers ont acquis une efficacité comparable à celle des humains.

Et ensuite… Le système va-t-il être en mesure de « donner du sens » à ce que dit l’utilisateur ? Là les choses se gâtent : les systèmes actuels sont très peu en mesure de comprendre ce qu’on leur dit.

Beaucoup moins que poussent à le croire les exemples donnés par ceux qui commercialisent les assistants vocaux actuels comme l’Echo d’Amazon ou le Google Home.

Parce que là non plus, comparaison n’est pas raison.

Si je demande à la machine « Apporte moi une baguette de pain», elle va être incapable de « deviner » une réponse satisfaisant ma demande,parce qu’incapable d’effectuer une action qu’on ne lui a pas apprise, comme passer une commande à mon boulanger pour que mon pain me soit livré.

Cette limitation est due au fait que cette dernière demande ne peut pas être simplement associée à une information. Elle doit induire l’exécution d’une suite d’actions (la troisième étape).

Et quand cela est possible, comme pour envoyer un SMS par exemple, c’est parce qu’un humain a associé la demande à une fonction que le téléphone peut réaliser. De telles fonctions ne sont pas, à ce jour, « inventées »par les machines mais programmées « à la main », par des humains rares, chers et difficiles à gérer.

Les machines ne sont pas (encore) capables d’apprendre toutes seules à faire des choses

Ne nous leurrons donc pas : dans l’état actuel de la technologie, la très grande majorité des actions réalisées par les assistants vocaux ne sont donc pas inventées par les machines mais programmées spécifiquement par des informaticiens.

Prétendre que les machines sont en mesure, grâce à l’IA,d’apprendre toutes seules à faire des choses est à ce jour une supercherie. Comme l’est prétendre que les machines peuvent anticiper une situation qui n’a jamais été rencontrée.

Convenons que la loi des grands nombres et la numérisation de l’ensemble des activités humaines permet de faire de la classification avec une grande efficacité.Convenons que cela va bouleverser fortement notre quotidien.

Convenons que l’écart entre classer de l’information et la comprendre est (encore) de taille. Et convenons que de la façon dont nous gérerons la réduction de cet écart dépendra la société vers laquelle nous nous dirigeons.

Franck Lefèvre, Décembre 2018

Cet article a initialement été publié dans « Le Journal de la Voix« .