Catégorie dans Vite dit

Les services vocaux, porteurs des enjeux de la troisième révolution numérique.

Cela fait maintenant plus d’un an que les premiers assistants vocaux  domestiques (« Google Home » et « Alexa » d’Amazon) sont présents en France. Quelques acteurs français, assujettis aux GAFA, sont dans les starting-blocs pour proposer « leurs » offres, dont Orange. Les industriels B2C français développent et testent (presque) tous des « skills » vocales. Tout cela confirme que ces objets vont à court terme faire partie de notre quotidien à tous, à côté de nos ordinateurs, de nos tablettes et de nos téléphones. Alors que certains considèrent que la voix n’est qu’un nouveau moyen, plus simple, pour accéder aux services déjà offerts par les écrans, le projet HomeKeeper repose sur la conviction que les changements induits par la généralisation de l’usage de la voix vont changer en profondeur la façon dont nous interagissons avec tous ces services.

Il peut dès lors être intéressant d’énumérer les véritables enjeux de l’usage de ces assistants vocaux.

          Enjeu  1 :  un système d’exploitation propice à la création et la diffusion d’une gamme de services large et ouverte

A l’instar d’Android dans le monde du mobile, ou de Windows dans l’univers du PC, les système d’exploitation purement vocaux vont faire partie des systèmes d’exploitation dominants de l’Internet. Mais plus encore que pour les OS classiques, ces nouvelles plateformes se transforment déjà en écosystèmes relativement fermés afin de capter l’ensemble de la valeur produite par les échanges entre la machine et l’usager. Il est donc important de disposer d’un système ouvert qui ne soit pas au service d’une entreprise unique et qui, au contraire, puisse permettre à toute organisation de créer et rendre accessibles ses propres services pour des coûts faibles et en toute liberté.

         Enjeu 2 : des services adaptés et personnalisés

L’accès à ces services ne se fera plus simplement par de simples terminaux , mais par le croisement de  multiples équipements synchronisés (capteurs divers, écrans, calculateurs, etc.)  afin de fabriquer des scénarios et des cas d’usages hautement personnalisés, et cela en fonction des spécificités de chaque citoyen : c’est le concept de conciergerie universelle, pour tous les services qui peuvent être rendus à un usager via un assistant domestique intelligent.

         Enjeu 3 : des territoires souverains dans leur économie numérique

L’essentiel des technologies utilisées par les assistants vocaux sont actuellement proposées par des entreprises américaines et chinoises, avec des données hébergées sur leurs territoires et tombant ainsi sous le contrôle total de leur juridiction. C’est aujourd’hui une problématique forte pour l’acceptation des IA par les Français, et la participation des collectivités à leur développement.

Sans action spécifique, l’Europe risque de devenir le “tiers-monde” de cet univers numérique.  A la façon dont les pays les plus pauvres exportent à coûts tirés leurs matières premières qui sont transformées, et donc valorisées, dans les pays riches, nous fournissons nos données et nos services numériques à ces géants. Ils les transforment, y apportent la valeur ajoutée et nous les re-distribuent en ayant capté la valeur ajoutée. 

         Enjeu 4 : un modèle économique durablement rentable

Le modèle économique des assistants vocaux passe, pour la majorité d’entre eux, par la vente d’équipements bon marché. Leur objectif essentiel est la consolidation de leur modèle économique existant. Aujourd’hui, Amazon offre gratuitement des assistants à ses meilleurs clients.

Les stratégies et les modèles économiques d’acteurs comme Google et Amazon n’étant pas identiques, ces différences se répercutent dans les systèmes vocaux qu’ils poussent : alors que Google gagne de l’argent par la promotion des services (publicité), Amazon en gagne en tant que (pseudo) place de marché des services (gestion de la promotion, de la transaction et de la logistique) créés par les marques (Uber, Pizza Hut, Tide…)

Il est donc indispensable de développer de nouveaux modèles basés sur la rémunération directe des relations entre les services et la satisfaction de leurs utilisateurs. Seul un tel modèle direct peut éviter les dérives inhérentes aux démarches publicitaires et/ou monopolistiques.

Le projet collaboratif HomeKeeper dont Digital Airways est un partenaire très impliqué, entend participer à créer une réponse technique, économique et partenariale à l’ensemble de ces défis.

 

Skipit et la domotique: la voix de son maître.

Nous montrons souvent ici des services de la plateforme HomeKeeper ( https://home-keeper.io ) rendus disponibles par l’assistant Skipit.

Mais Skipit est aussi une plateforme domotique complète. Il supporte de nombreux protocoles et il est possible d’y développer très simplement des scénarios domotiques complets. Très bientôt, il sera même possible à l’utilisateur de créer ses propres applications vocales… …en lui parlant !

Un exemple ? Dites lui donc : « Quand la porte s’ouvre, merci d’allumer la lumière du couloir et de me prévenir. Si je ne suis pas à la maison, dis le moi par SMS. ». A suivre donc…

Cette vidéo montre un exemple de telles applications utilisant des objets connectés de la société française Otio/Bewii ( http://www.bee-wi.com/ ).

Le traitement de la voix visible ici peut être fait sans aucun appel au cloud, ni aux plates-formes extra-européennes !

 

 

Accéder à des informations ultra-locales par n’importe quel assistant vocal.

La plateforme Salamalecs de Digital Airways est aussi utilisable pour construire des services vocaux très personnalisés à partir de contenus déjà accessibles sur le Web. Le service suivant peut-être rendu accessible par n’importe quel assistant vocal mais il a été développé pour le projet HomeKeeper dont l’objectif est de mettre l’intelligence artificielle au service d’offre locales. Les contenus ici utilisés sont ceux de Actu.fr et des 90+ journaux locaux du groupe PubliHebdo, filiale du groupe Ouest-France.   

L’intelligence artificielle est-elle stupide ?

Le pouvoir médiatique de l’oxymore « IA », Intelligence Artificielle, entraîne une cohorte de fantasmes et d’idées fausses. Il convient pourtant de prendre l’ensemble au sérieux et d’en comprendre quelques réalités pour faire des choix de société en connaissance de cause.

(Ilustration : Fille née sans mere 1916-18 – Francis Picabia )

Dans notre quotidien, nous côtoyons principalement deux branches de l’IA ou Intelligence Artificielle.

La première est l’apprentissage profond (de l’anglais deep learning, ou machine learning). Il permet à un ordinateur de produire une information non plus « à la papa », à partir d’une séquence d’instructions qu’on lui a programmée, mais par une « prise d’habitudes ».

Imaginons qu’on introduise dans un tel système, quotidiennement et pendant de nombreux jours, un ensemble de données comme l’ensoleillement de la veille, l’humidité de la veille, le vent de la veille, la température de la veille et le temps qu’il fait aujourd’hui. Après avoir fourni un grand nombre d’exemples au système – la « phase d’apprentissage» – il va arriver un moment où en ne lui fournissant que les données du jour,il va estimer la météo du lendemain avec une fiabilité acceptable.

Apprentissage ou habitude ?

Cette approche par classification est extrêmement efficace pour reconnaître des chats sur des photos, anticiper une panne mécanique sur une voiture ou savoir si un produit en bout de chaîne de fabrication est conforme ou pas.

On peut raisonnablement penser qu’elle sera vite très efficace aussi pour anticiper des maladies. Ou offrir d’autres avantages, qu’on ne détaillera pas ici.

Le principe du deep learning, c’est donc d’utiliser les« habitudes », le passé pour anticiper l’avenir. Untel système est donc par nature conformiste. Et totalement incapable de prévoir un événement qui n’est pas dans la continuité de ceux qui se sont déjà passés. En tout cas pas plus que votre voyante préférée.

Les assistants vocaux sont sur-vendus

La seconde branche principale de l’IA concerne l’interaction entre l’homme et la machine, et en particulier le traitement du langage naturel. Pour une machine,pouvoir répondre à une question posée par un homme demande trois étapes :entendre ce que l’utilisateur a dit, comprendre le sens de sa demande et répondre à son attente.

C’est en utilisant le deep learning que les géants de l’internet ( Google, Facebook, Microsoft, IBM, Apple, Amazon,…) ont récemment fait d’énormes progrès sur la première étape. En entraînant leurs algorithmes avec les demandes que nous formulons tous à leurs systèmes, ces derniers ont acquis une efficacité comparable à celle des humains.

Et ensuite… Le système va-t-il être en mesure de « donner du sens » à ce que dit l’utilisateur ? Là les choses se gâtent : les systèmes actuels sont très peu en mesure de comprendre ce qu’on leur dit.

Beaucoup moins que poussent à le croire les exemples donnés par ceux qui commercialisent les assistants vocaux actuels comme l’Echo d’Amazon ou le Google Home.

Parce que là non plus, comparaison n’est pas raison.

Si je demande à la machine « Apporte moi une baguette de pain», elle va être incapable de « deviner » une réponse satisfaisant ma demande,parce qu’incapable d’effectuer une action qu’on ne lui a pas apprise, comme passer une commande à mon boulanger pour que mon pain me soit livré.

Cette limitation est due au fait que cette dernière demande ne peut pas être simplement associée à une information. Elle doit induire l’exécution d’une suite d’actions (la troisième étape).

Et quand cela est possible, comme pour envoyer un SMS par exemple, c’est parce qu’un humain a associé la demande à une fonction que le téléphone peut réaliser. De telles fonctions ne sont pas, à ce jour, « inventées »par les machines mais programmées « à la main », par des humains rares, chers et difficiles à gérer.

Les machines ne sont pas (encore) capables d’apprendre toutes seules à faire des choses

Ne nous leurrons donc pas : dans l’état actuel de la technologie, la très grande majorité des actions réalisées par les assistants vocaux ne sont donc pas inventées par les machines mais programmées spécifiquement par des informaticiens.

Prétendre que les machines sont en mesure, grâce à l’IA,d’apprendre toutes seules à faire des choses est à ce jour une supercherie. Comme l’est prétendre que les machines peuvent anticiper une situation qui n’a jamais été rencontrée.

Convenons que la loi des grands nombres et la numérisation de l’ensemble des activités humaines permet de faire de la classification avec une grande efficacité.Convenons que cela va bouleverser fortement notre quotidien.

Convenons que l’écart entre classer de l’information et la comprendre est (encore) de taille. Et convenons que de la façon dont nous gérerons la réduction de cet écart dépendra la société vers laquelle nous nous dirigeons.

Franck Lefèvre, Décembre 2018

Cet article a initialement été publié dans « Le Journal de la Voix« .