Les services vocaux, porteurs des enjeux de la troisième révolution numérique.

Cela fait maintenant plus d’un an que les premiers assistants vocaux  domestiques (« Google Home » et « Alexa » d’Amazon) sont présents en France. Quelques acteurs français, assujettis aux GAFA, sont dans les starting-blocs pour proposer « leurs » offres, dont Orange. Les industriels B2C français développent et testent (presque) tous des « skills » vocales. Tout cela confirme que ces objets vont à court terme faire partie de notre quotidien à tous, à côté de nos ordinateurs, de nos tablettes et de nos téléphones. Alors que certains considèrent que la voix n’est qu’un nouveau moyen, plus simple, pour accéder aux services déjà offerts par les écrans, le projet HomeKeeper repose sur la conviction que les changements induits par la généralisation de l’usage de la voix vont changer en profondeur la façon dont nous interagissons avec tous ces services.

Il peut dès lors être intéressant d’énumérer les véritables enjeux de l’usage de ces assistants vocaux.

          Enjeu  1 :  un système d’exploitation propice à la création et la diffusion d’une gamme de services large et ouverte

A l’instar d’Android dans le monde du mobile, ou de Windows dans l’univers du PC, les système d’exploitation purement vocaux vont faire partie des systèmes d’exploitation dominants de l’Internet. Mais plus encore que pour les OS classiques, ces nouvelles plateformes se transforment déjà en écosystèmes relativement fermés afin de capter l’ensemble de la valeur produite par les échanges entre la machine et l’usager. Il est donc important de disposer d’un système ouvert qui ne soit pas au service d’une entreprise unique et qui, au contraire, puisse permettre à toute organisation de créer et rendre accessibles ses propres services pour des coûts faibles et en toute liberté.

         Enjeu 2 : des services adaptés et personnalisés

L’accès à ces services ne se fera plus simplement par de simples terminaux , mais par le croisement de  multiples équipements synchronisés (capteurs divers, écrans, calculateurs, etc.)  afin de fabriquer des scénarios et des cas d’usages hautement personnalisés, et cela en fonction des spécificités de chaque citoyen : c’est le concept de conciergerie universelle, pour tous les services qui peuvent être rendus à un usager via un assistant domestique intelligent.

         Enjeu 3 : des territoires souverains dans leur économie numérique

L’essentiel des technologies utilisées par les assistants vocaux sont actuellement proposées par des entreprises américaines et chinoises, avec des données hébergées sur leurs territoires et tombant ainsi sous le contrôle total de leur juridiction. C’est aujourd’hui une problématique forte pour l’acceptation des IA par les Français, et la participation des collectivités à leur développement.

Sans action spécifique, l’Europe risque de devenir le “tiers-monde” de cet univers numérique.  A la façon dont les pays les plus pauvres exportent à coûts tirés leurs matières premières qui sont transformées, et donc valorisées, dans les pays riches, nous fournissons nos données et nos services numériques à ces géants. Ils les transforment, y apportent la valeur ajoutée et nous les re-distribuent en ayant capté la valeur ajoutée. 

         Enjeu 4 : un modèle économique durablement rentable

Le modèle économique des assistants vocaux passe, pour la majorité d’entre eux, par la vente d’équipements bon marché. Leur objectif essentiel est la consolidation de leur modèle économique existant. Aujourd’hui, Amazon offre gratuitement des assistants à ses meilleurs clients.

Les stratégies et les modèles économiques d’acteurs comme Google et Amazon n’étant pas identiques, ces différences se répercutent dans les systèmes vocaux qu’ils poussent : alors que Google gagne de l’argent par la promotion des services (publicité), Amazon en gagne en tant que (pseudo) place de marché des services (gestion de la promotion, de la transaction et de la logistique) créés par les marques (Uber, Pizza Hut, Tide…)

Il est donc indispensable de développer de nouveaux modèles basés sur la rémunération directe des relations entre les services et la satisfaction de leurs utilisateurs. Seul un tel modèle direct peut éviter les dérives inhérentes aux démarches publicitaires et/ou monopolistiques.

Le projet collaboratif HomeKeeper dont Digital Airways est un partenaire très impliqué, entend participer à créer une réponse technique, économique et partenariale à l’ensemble de ces défis.

 

Notre filiale Newport-IMS lauréate européenne « voiture connectée »

La start-up normande Newport-IMS a été déclarée, ce lundi 13 mai 2019, lauréate du concours européen IMPACT Connected Car (ICCAR). Cette récompense prestigieuse est pour Newport-IMS une reconnaissance de l’originalité et des qualités de Phebe, son assistant vocal dédié à l’automobile ( https://phebe.io/ ) et de l’ensemble des services qu’il rend disponibles.

C’est à l’issue d’un processus de sélection en 4 phases durant 9 mois que Newport-IMS a été retenue parmi plus de 200 autres start-ups européennes pour recevoir 60 000 € de financement non dilutif ainsi que des services de tutorat d’experts, y compris du coaching technique, commercial, en entreprise et financier.

Newport-IMS a été créée en 2017 par les entreprises normandes Digital Airways (Argentan) et Casus-Belli (Caen) pour développer Phebe. Cet équipement, utilisable par la voix, s’installe sur le tableau de bord de n’importe quel véhicule pour offrir à son conducteur un ensemble de services : prise de carburant, paiement du parking, suivi d’applications professionnelles, …

L’assistant vocal Phebe démontre qu’il est possible d’offrir de tels services avec des approches différentes de celles des grands acteurs américains (Amazon, Google, …). En effet, Phebe tire profit de ressources et de compétences régionales et nationales.  C’est ainsi que Newport-IMS a contracté de nombreux partenariats avec des entreprises telles E.Leclerc, Inter Mutuelles Assistance, le Groupement Cartes Bancaires ou encore l’équipementier Continental.

Le programme d’accélération ICCAR est financé par la Commission européenne dans le cadre du programme H2020. Doté de plus de 4 millions d’euros par l’Union Européenne, dont 2,1 millions fléchés directement vers les bénéficiaires, ce programme répond aux besoins sociaux et industriels du secteur émergeant de la voiture connectée. Il est géré par un ensemble d’experts dont le pôle MOVEO. Les projets sélectionnés proviennent de 11 pays de toute l’Europe et des pays associés au programme H2020, avec une forte représentation de l’Espagne, la France, Israël et l’Allemagne.

Les entreprises à l’origine de Newport-IMS

Digital Airways est un laboratoire d’innovation numérique créé en 1998 à Argentan. Il conçoit et développe des produits pour ses clients industriels. Ses réalisations les plus récentes tirent parti de l’intelligence artificielle et de la gestion des interactions vocales.

Casus-Belli est une agence marketing créée en 2005. Actrice de la transformation numérique, interne ou environnementale, l’agence accompagne les entreprises et les institutions dans un monde en mutation. Casus Belli défriche ainsi de nouvelles approches marketing, explore les innovations sociales et technologiques, challenge les modèles existants pour les réinventer.

Libérer les chatbots avec l’Alliance for Open Chatbot

chatbot

Ce 18 avril, Digital Airways participait à la 1ère réunion opérationnelle de l’Alliance for Open ChatBot qui s’est tenue à Paris. Ce groupe de travail a l’ambition de définir un standard ouvert, collaboratif, et gratuit permettant d’interconnecter les chatbots afin de les rendre plus efficaces et plus pertinents.

L’association Alliance for Open ChatBot a été créée par des entreprises qui souhaitent normaliser les accès aux chatbots, textuels ou vocaux. En rendant ainsi le code indépendant des fournisseurs, le marché va s’en trouver fluidifié. Digital Airways a été l’une des premières entreprises à rejoindre l’Alliance for Open ChatBot créée fin 2018.

Une API ouverte pour créer facilement des chatbots

Jusqu’à maintenant, une entreprise de la grande distribution, par exemple, souhaitant mettre en place un chatbot était naturellement tentée de privilégier l’utilisation des services de Google ou d’Amazon, et ce par crainte de la qualité et de la pérennité des « petits acteurs européens ». Le projet de l’Alliance permet d’offrir à de tels utilisateurs la garantie que ses développements seront directement portables d’un fournisseur à un autre.

Grâce au standard ouvert que l’Alliance met en place, on va pouvoir non seulement revendiquer une qualité d’action plus sécurisée, mais aussi simplifier la création des chatbots. Avec cette API ouverte, le créateur pourra réaliser les tests avec un seul chatbot et il pourra utiliser les autres ensuite sans problème.

Au delà de la simplification technique, l’utilisation de fournisseurs de technologie indépendants via les APIs de l’Alliance va permettre aux fournisseurs de services commerciaux de réduire les risques stratégiques qu’ils prennent en utilisant les APIs d’un Amazon risquant à tout moment de court-circuiter à son profit la relation entre le fournisseur du chatbot et son client.

Cette première réunion, à laquelle nous avons participé avec une dizaine d’entreprises, a été des plus constructives. Détail révélateur de l’ambiance : pendant les tours de table tout monde s’exprime et les avis sont ouverts. L’écoute est mutuelle. Le consensus conclut toujours l’échange.

Un standard ouvert qui rend libre

Depuis la création de l’Alliance, de premières spécifications ont déjà été réalisées. En travaillant à distance avant la réunion, Digital Airways a été parmi les premiers à les implémenter en frontal de Salamalecs. Le tout a fonctionné du premier coup, démontrant tant la simplicité de mise en œuvre de cette API que son efficacité.

Dans un contexte dans lequel les systèmes conversationnels (textuels ou vocaux)  prennent une importance grandissante, l’Alliance Open ChatBot permet donc d’envisager un monde dans lequel il devient possible de se concentrer sur le service rendu, indépendamment de son fournisseur.

Dans ses activités, l’association a prévu d’étendre le standard pour pouvoir gérer des émotions par exemple, ainsi qu’une extension du standard qui permettra aux bots d’échanger des informations avec d’autres bots pour trouver des réponses à la demande d’un utilisateur (metabots).

L’Alliance for Open ChatBot a vocation à s’internationaliser et participera au ChatbotSummit , grand’messe du domaine, qui se déroulera cette année à Tel Aviv fin juin.

Ce 18 avril était décidément un jour important pour les initiatives collaboratives de l’IA puisque ce même jour se tenait également l’édition 2019 de la « Nuit de l’IA » au palais de Tokyo, à Paris. Réunion à laquelle participait de façon active le Voice lab dont Digital Airways est également très fier d’être membre.

Skipit et la domotique: la voix de son maître.

Nous montrons souvent ici des services de la plateforme HomeKeeper ( https://home-keeper.io ) rendus disponibles par l’assistant Skipit.

Mais Skipit est aussi une plateforme domotique complète. Il supporte de nombreux protocoles et il est possible d’y développer très simplement des scénarios domotiques complets. Très bientôt, il sera même possible à l’utilisateur de créer ses propres applications vocales… …en lui parlant !

Un exemple ? Dites lui donc : « Quand la porte s’ouvre, merci d’allumer la lumière du couloir et de me prévenir. Si je ne suis pas à la maison, dis le moi par SMS. ». A suivre donc…

Cette vidéo montre un exemple de telles applications utilisant des objets connectés de la société française Otio/Bewii ( http://www.bee-wi.com/ ).

Le traitement de la voix visible ici peut être fait sans aucun appel au cloud, ni aux plates-formes extra-européennes !

 

 

J’invite l’ensemble des acteurs des services vocaux…

La création d’applications vocales, et en particulier d’assistants vocaux, demande la mise en œuvre, parfois complexe, de nombreuses briques techniques ( ASR, NLU, NLP, TTS, applicatifs,… ). Et ceci qu’elles fonctionnent sur des terminaux spécifiques destinés au grand public ( Alexa d’Amazon, Google Home,…), sur des terminaux spécialisés (automobiles, systèmes domotiques,…) ou sur des terminaux mobiles ( smartphones, tablettes,…).

Des grands acteurs industriels américains (GAFAs) proposent des systèmes qui simplifient la création de telles applications en utilisant des systèmes favorisant leur propre stratégie industrielle. Toute entreprise qui développe et déploie des applications sur ces systèmes crée donc de la valeur au profit d’opérateurs qui sont ou seront leurs concurrents, voire leurs prédateurs. Les fournisseurs d’applications vocales, et en premier lieu les grandes entreprises françaises et européennes, souhaitent donc pouvoir développer et exploiter des services fonctionnant sur tout système, sans dépendre exclusivement de ceux proposés par les GAFAs.

Cela est possible car de nombreux acteurs (éditeurs logiciels, sociétés de services, laboratoires de recherche, développeurs indépendants, …) proposent des composants pouvant être assemblés pour créer des applications vocales parfaitement adaptables à la stratégie de chacun. Mais leur adoption nécessite de garantir que ces développements, sur lesquels vont rapidement reposer une part croissante de la stratégie de leurs promoteurs, vont bénéficier au moins de la même simplicité de développement, de la même fiabilité et de la même pérennité que les systèmes proposés par les GAFAs. Cette exigence est difficilement compatible avec la fragmentation des offres techniques et la disparité des acteurs à mobiliser.

J’invite l’ensemble de ces acteurs à se regrouper au sein d’un forum regroupant toute entreprise française productrice et utilisatrice de technologies vocales. Une communuaté qui favorise la création d’offres cohérentes, fiables, scalables et interopérables, tant au niveau technique que commercial.

Elle formalisera également le souhait de l’ensemble de ses membres que les applications vocales, prochain territoire de la révolution digitale, soient développées dans le respect des intérêts de leurs fournisseurs et de leurs utilisateurs, français et européens.

Salamalecs + SNIPS – GAFAMI

Vous connaissez certainement SNIPS, la start-up française rendue célèbre par les déclarations chocs de son cofondateur Rand Hindi.

Sa technologie embarquée garantit un respect de la vie privée des utilisateurs en analysant leurs requêtes vocales en local, sur l’appareil, et non pas en utilisant les plateformes cloud des GAFAMI.  « Les autres acteurs améliorent leurs modèles dans le cloud, nous entraînons les nôtres dès la conception. Des contributeurs enrichissent les possibilités et nous intégrons le corpus de données constitué dans le microprocesseur. L’apprentissage est ainsi séparé de l’usage », explique Yann Lechelle, directeur des opérations. Mais créer ce corpus peut se révéler compliqué et une fois que la reconnaissance vocale fonctionne, il faut créer le code fonctionnel et y lier la gestion du vocal. Pour piloter une cafetière l’ensemble peut rester simple mais créer un assistant vocal évolué est d’un tout autre niveau de complexité !

La solution ? Marier Salamalecs & SNIPS : les corpus qui vont être reconnus par SNIPS peuvent être générés directement par Salamalecs, ce dernier prenant également en charge le développement (graphique!) du code fonctionnel.

1 + 1 = 3 !

Cette association peut simplifier drastiquement la création d’applications vocales évoluées, et en particulier les assistants vocaux à destination des professionnels.

Un exemple ? Cette application de prise de rendez-vous a été développée complètement en 3 heures. Tout compris ! Et puis pour garantir un fonctionnement sans GAFAMI, la voix ( Text to Speech) est celle de Voxygen !

L’intelligence artificielle est-elle stupide ?

Le pouvoir médiatique de l’oxymore « IA », Intelligence Artificielle, entraîne une cohorte de fantasmes et d’idées fausses. Il convient pourtant de prendre l’ensemble au sérieux et d’en comprendre quelques réalités pour faire des choix de société en connaissance de cause.

(Ilustration : Fille née sans mere 1916-18 – Francis Picabia )

Dans notre quotidien, nous côtoyons principalement deux branches de l’IA ou Intelligence Artificielle.

La première est l’apprentissage profond (de l’anglais deep learning, ou machine learning). Il permet à un ordinateur de produire une information non plus « à la papa », à partir d’une séquence d’instructions qu’on lui a programmée, mais par une « prise d’habitudes ».

Imaginons qu’on introduise dans un tel système, quotidiennement et pendant de nombreux jours, un ensemble de données comme l’ensoleillement de la veille, l’humidité de la veille, le vent de la veille, la température de la veille et le temps qu’il fait aujourd’hui. Après avoir fourni un grand nombre d’exemples au système – la « phase d’apprentissage» – il va arriver un moment où en ne lui fournissant que les données du jour,il va estimer la météo du lendemain avec une fiabilité acceptable.

Apprentissage ou habitude ?

Cette approche par classification est extrêmement efficace pour reconnaître des chats sur des photos, anticiper une panne mécanique sur une voiture ou savoir si un produit en bout de chaîne de fabrication est conforme ou pas.

On peut raisonnablement penser qu’elle sera vite très efficace aussi pour anticiper des maladies. Ou offrir d’autres avantages, qu’on ne détaillera pas ici.

Le principe du deep learning, c’est donc d’utiliser les« habitudes », le passé pour anticiper l’avenir. Untel système est donc par nature conformiste. Et totalement incapable de prévoir un événement qui n’est pas dans la continuité de ceux qui se sont déjà passés. En tout cas pas plus que votre voyante préférée.

Les assistants vocaux sont sur-vendus

La seconde branche principale de l’IA concerne l’interaction entre l’homme et la machine, et en particulier le traitement du langage naturel. Pour une machine,pouvoir répondre à une question posée par un homme demande trois étapes :entendre ce que l’utilisateur a dit, comprendre le sens de sa demande et répondre à son attente.

C’est en utilisant le deep learning que les géants de l’internet ( Google, Facebook, Microsoft, IBM, Apple, Amazon,…) ont récemment fait d’énormes progrès sur la première étape. En entraînant leurs algorithmes avec les demandes que nous formulons tous à leurs systèmes, ces derniers ont acquis une efficacité comparable à celle des humains.

Et ensuite… Le système va-t-il être en mesure de « donner du sens » à ce que dit l’utilisateur ? Là les choses se gâtent : les systèmes actuels sont très peu en mesure de comprendre ce qu’on leur dit.

Beaucoup moins que poussent à le croire les exemples donnés par ceux qui commercialisent les assistants vocaux actuels comme l’Echo d’Amazon ou le Google Home.

Parce que là non plus, comparaison n’est pas raison.

Si je demande à la machine « Apporte moi une baguette de pain», elle va être incapable de « deviner » une réponse satisfaisant ma demande,parce qu’incapable d’effectuer une action qu’on ne lui a pas apprise, comme passer une commande à mon boulanger pour que mon pain me soit livré.

Cette limitation est due au fait que cette dernière demande ne peut pas être simplement associée à une information. Elle doit induire l’exécution d’une suite d’actions (la troisième étape).

Et quand cela est possible, comme pour envoyer un SMS par exemple, c’est parce qu’un humain a associé la demande à une fonction que le téléphone peut réaliser. De telles fonctions ne sont pas, à ce jour, « inventées »par les machines mais programmées « à la main », par des humains rares, chers et difficiles à gérer.

Les machines ne sont pas (encore) capables d’apprendre toutes seules à faire des choses

Ne nous leurrons donc pas : dans l’état actuel de la technologie, la très grande majorité des actions réalisées par les assistants vocaux ne sont donc pas inventées par les machines mais programmées spécifiquement par des informaticiens.

Prétendre que les machines sont en mesure, grâce à l’IA,d’apprendre toutes seules à faire des choses est à ce jour une supercherie. Comme l’est prétendre que les machines peuvent anticiper une situation qui n’a jamais été rencontrée.

Convenons que la loi des grands nombres et la numérisation de l’ensemble des activités humaines permet de faire de la classification avec une grande efficacité.Convenons que cela va bouleverser fortement notre quotidien.

Convenons que l’écart entre classer de l’information et la comprendre est (encore) de taille. Et convenons que de la façon dont nous gérerons la réduction de cet écart dépendra la société vers laquelle nous nous dirigeons.

Franck Lefèvre, Décembre 2018

Cet article a initialement été publié dans « Le Journal de la Voix« .

Interaction vocale et intelligences artificielles : état des lieux et opportunités

Face à la multiplication des services digitaux accessibles au consommateur, le mobile trouve ses limites et laisse d’autres modalités pointer leur nez. Parmi celles-ci, l’interaction vocale est en tête du peloton, poussée par Amazon et Google, avec un succès dont le monde non anglophone ne se rend pas encore compte. Mais ce tsunami ne laissera pas la plage dans l’état dans lequel il la trouve. Ces nouvelles modalités vont induire des nouveaux modèles économiques qui vont induire des nouveaux gagnants. De notre vieille Europe, aurons-nous le courage de jouer ce nouveau match et écouterons nous une fois de plus cette confortable paresse qui nous pousse à prétendre que les gagnants d’hier seront ceux de demain ? Analyse…

Note : je vous préviens, c’est long. Si vous n’aimez que les articles zappés et les pitch, celui-ci ne ne va pas vous plaire…

La voix : le plus court chemin de l’homme à l’intelligence artificielle

La digitalisation de notre environnement nous offre un accès à une multitude de services qu’il est théoriquement possible d’utiliser à partir d’un smartphone, d’une tablette ou d’un ordinateur dont la majorité d’entre nous est équipée.

Si les écrans de nos smartphones s’imposent actuellement comme le moyen technique roi pour gérer notre relation de consommateurs avec nos fournisseurs de biens et services, de nouvelles méthodes sont en train d’émerger de façon massive. Parmi celles-ci, la voix est en train de s’imposer, grâce à des technologies capables d’exploiter des échanges verbaux riches entre des intelligences artificielles et leurs utilisateurs/consommateurs.

On peut prévoir que ces nouvelles méthodes, et l’interaction vocale en particulier, vont induire des modifications importantes dans les habitudes des utilisateurs, mais également dans la répartition des pouvoirs et des revenus entre les entreprises souhaitant répondre aux attentes des consommateurs.

Analysons la façon dont l’interaction vocale et les intelligences artificielles vont probablement modifier de façon importante et durable ce paysage, et générer d’importantes opportunités commerciales, techniques et sociétales dont chacun peut souhaiter (ou pas…) devenir acteur, dès aujourd’hui.

Les smartphones offrent une expérience limitée

Bien que le smartphone soit aujourd’hui majoritairement considéré comme le vecteur de services le plus efficace, l’accès qu’il y offre est dans la pratique limité par un nombre de facteurs important :

  1. il faut connaître l’existence de ces services : en effet ceux-ci sont tellement nombreux qu’il est devenu totalement impossible de connaître ne serait-ce qu’une partie de ceux qui pourraient nous être utiles. Ceci d’autant plus pour ceux d’entre nous qui ne côtoient pas quotidiennement le monde numérique, que ce soit pour des raisons culturelles ou économiques.
  2. il faut penser à y faire appel au moment opportun : nombre de services ne sont utiles que dans des conditions précises. Par exemple, un service de coupe-file dans un aéroport n’est réellement utile que lorsqu’on prend l’avion (situation peu fréquente) dans un aéroport dans lequel le service est disponible (ce qui réduit encore les cas d’usage) et qu’on est contraint par un horaire. Un tel exemple illustre qu’un service peut être extrêmement utile (cet exemple permet d’éviter de manquer un avion…) dans un contexte tellement spécifique qu’il n’est pas envisageable d’y souscrire préalablement à une situation de besoin avéré.
  3. l’utilisation d’un service réclame généralement d’en être déjà connu : pour pouvoir utiliser un service, il est en général nécessaire d’y avoir souscrit. Pour qu’il soit utilisable sur un smartphone, la première action passe par le téléchargement d’une application spécifique. Or il n’est pas envisageable d’installer sur son téléphone des centaines d’applications, au risque de s’y perdre. De plus, l’essentiel de ces services demande une inscription. Celle-ci impose une procédure souvent longue (saisie des informations personnelles, saisie des moyens de paiement…) qu’un utilisateur potentiel refusera de réaliser avant d’en avoir perçu l’utilité réelle. Autre point critique : ces informations nécessitent d’être maintenues à jour. Si le service concerné est rarement utilisé, il est fort probable que les informations préalablement saisies ne seront plus à jour au moment où on en aura réellement besoin (numéro de carte de carte de crédit, numéro de téléphone, adresse postale, …).
  4. il faut savoir les utiliser : il n’existe pas de service ne nécessitant pas un minimum d’apprentissage. La multiplication des services fait qu’il devient vite impossible de se souvenir de la façon dont s’utilisent ceux que nous n’avons déjà utilisés que de façon exceptionnelle. Les risques d’échecs et de mauvaises expériences qui découlent de cette situation sont un autre obstacle important à l’extension de l’usage.
  5. la personne qui utilise un service n’est pas toujours celle qui en profite : par exemple, les services destinés aux seniors sont souvent mis en œuvre par des tiers (famille ou aidants). Pourtant, très peu permettent une telle délégation. L’utilisateur doit donc « se faire passer pour le bénéficiaire », ce qui implique une divulgation d’informations non contrôlée et non révocable (information financière par exemple). Ceci induit pour chaque partie une prise de risque posant un réel problème de responsabilité. Posséder les codes d’accès d’un tiers constitue d’ailleurs en soi une prise de risque importante qui devrait être refusée par des aidants.

Les systèmes vocaux, nouveaux vecteurs de services

Pour pallier la majorité de ces freins à l’adoption de nouveaux services, de nouvelles méthodes d’interaction sont actuellement étudiées et mises en œuvre.

On peut principalement citer les objets connectés et les systèmes vocaux [1].

Les objets connectés permettent de matérialiser des services digitaux. Un bon exemple en est le « bouton Darty » sur lequel vous appuyez lorsque vous rencontrez un problème avec votre électro-ménager. Le bouton peut directement mettre son utilisateur en relation avec le service clients de l’entreprise. En étant ainsi « toujours sous nos yeux », le service devient très simple à activer. Cela ne résout cependant pas, loin s’en faut, l’ensemble des limitations énoncées ci-dessus.

L’utilisation de la voix associée à des intelligences artificielles ouvre dès maintenant des horizons très larges. Des objets comme Echo (proposé par Amazon) ou Google Home (proposé par Google) permettent à leurs utilisateurs d’échanger directement en parlant avec l’objet qui est capable de comprendre (dans une certaine mesure) ce qu’on lui demande et de répondre à cette demande si elle fait partie de ses « compétences ».

L’usage de la voix pour exploiter des services numériques présente de nombreux avantages :

  1. un médiateur bienveillant : la voix est un « concierge » bienveillant pour les utilisateurs des systèmes qui l’utilisent. Son utilisation n’impose pas la maîtrise de l’écrit, ni celle d’un ordinateur ou d’une tablette.
  2. pas de connaissance préalable de l’existence des services : en interpellant un système de façon verbal, on peut lui exprimer un besoin sans avoir à connaître le système qui est en mesure d’y répondre. A contrario, le smartphone impose de connaître le service, d’avoir téléchargé une application qui le propose et de la démarrer pour obtenir son exécution.
  3. proactivité et contextualisation des propositions : les systèmes vocaux ont la possibilité « d’interpeller leurs utilisateurs » pour leur faire directement des propositions construites de façon très contextuelle. Par exemple, dans une automobile, il est possible de proposer un audio-guide quand on passe à proximité d’un monument historique. Dans un cadre résidentiel, de nombreux services peuvent être contextualisés, comme l’optimisation énergétique ou l’intervention d’un technicien en cas de panne d’un équipement.
  4. simplification de l’expérience utilisateur par la connaissance de l’utilisateur : le système vocal est en mesure de connaître durablement de nombreuses informations sur son ou ses utilisateur(s). Ces informations constituent des éléments de profils qui peuvent avantageusement être utilisés pour simplifier l’accès au service. Par exemple, si je programme l’intervention d’une garde d’enfants, il ne sera pas nécessaire de préciser mon adresse si le système la connait déjà. Des informations liées à mes habitudes peuvent également être retenues et réutilisées au moment opportun, comme les ingrédients que je n’apprécie pas pour la livraison de repas.
  5. pas de passage par l’écrit : l’utilisation du vocal peut éviter tout usage de l’écrit pour, par exemple, consigner des informations liées au passage d’une aide à domicile. Ceci réduit la barrière qui peut être à l’origine de la faible quantité d’informations consignées dans un cahier de liaison alors qu’il est établi que les observations alors réalisées ont une grande valeur pour le suivi sanitaire des bénéficiaires.
  6. continuité de l’expérience : utiliser le vocal pour définir les expériences utilisateurs permet un haut niveau d’indépendance entre les différents systèmes utilisés. Il est ainsi possible de proposer une continuité d’expérience entre les contextes d’utilisation, comme le domicile, l’automobile ou le portable.

On voit donc que l’ensemble des avantages de l’utilisation de systèmes vocaux (derrière lesquels sont rendues disponibles des intelligences artificielles) permet de réduire considérablement les freins à l’utilisation de nouveaux services numériques, en particulier auprès d’un public n’ayant pas, pour des raisons culturelles, sociales ou autres, développé une grande expertise dans l’utilisation continue de tels services.

Les acteurs actuels des plates-formes vocales

Les acteurs industriels qui ont déjà pris des positions industrielles sur ces sujets sont en nombre réduit et sont très majoritairement américains. Si on ne considère que ceux d’entre eux qui ne proposent pas exclusivement des outils techniques mais les accompagnent de services effectifs[2], on peut citer :

  • Apple SIRI : proposé par Apple sur ses téléphones et ses tablettes, SIRI permet d’interagir avec des services d’informations (météo, horaires de transports, loisirs, restauration, services de communication, recherche sur Internet,…).
  • Google Now : c’est un service très proche de celui proposé par SIRI. Il repose sur le même modèle économique (pas de fourniture directe de services), visant essentiellement une amélioration de l’attractivité des téléphones Androïd.
  • Amazon Alexa : la démarche d’Amazon, avec Alexa, est radicalement différente des deux précédents. Alexa est une plate-forme complète qui peut être utilisée par n’importe quel fabricant de matériel. Pour le consommateur, Alexa est un agent vocal avec lequel il peut non seulement obtenir des informations pratiques, mais également pour obtenir des biens et des services. Alexa permet par exemple de commander par un échange purement verbal une pizza qui vous sera livrée, ou de prendre un billet de train. Alexa est ouverte à deux titres :
    • n’importe quel fabricant de matériel peut l’intégrer dans ses propres équipements. Amazon lui-même l’a intégrée dans deux enceintes connectées ( Echo et Dot) mais on la retrouve aujourd’hui également dans de nombreux équipements ménager, dans des voitures,…
    • n’importe quel fournisseur de services peut intégrer un nouveau service dans Alexa. Cette intégration se réalise de façon similaire à une application mobile dans l’AppStore d’Apple ou dans le Google Play. Plus de 10 000 services sont à ce jour disponibles. Rendre un service existant effectivement utilisable sur l’équipement d’un consommateur demande cependant à ce dernier d’effectuer une démarche volontaire préalable, à la façon dont il faut télécharger une application mobile pour pouvoir l’utiliser sur son smartphone.
  • Google Home : Google Home est à ce jour similaire au couple Echo/Alexa dont il est considéré comme le principal concurrent. L’intégration dans un équipement non contrôlé par Google n’est pas encore possible et le nombre de services disponibles est beaucoup moins nombreux mais la perception que peut en avoir un consommateur est similaire.

Quelques offres asiatiques (en particulier chinoises) existent également mais elles sont cantonnées à leur marché intérieur dont les spécificités (langue, nature des offres, modèle économique) les rend à ce jour très peu compatibles avec les marchés occidentaux. Elles n’y sont d’ailleurs à ce jour pas directement visibles. Cette remarque ne doit en aucun cas être considérée comme réductrice des capacités d’entrée d’un acteur majeur chinois sur ce marché, bien au contraire !

Il faut bien considérer que les stratégies et les modèles économiques de Google et d’Amazon sont très différents. Ces différences se répercutent dans les systèmes vocaux poussés par ces deux entreprises : alors que Google gagne de l’argent par la promotion des services (publicité), Amazon en gagne par la fourniture complète des services (gestion de la promotion, de la transaction et de la logistique). La capacité du second à générer des revenus par l’utilisation d’un système facilitant l’accès des consommateurs à une très large gamme de produits et de services est donc considérablement supérieure à celle du premier.

Affinons la description des systèmes capables de fournir effectivement les services (et non pas ceux qui n’en font que la promotion): Alexa et Google Home. Il est bien évident que leurs fonctions peuvent potentiellement se retrouver sous forme d’applications destinées aux téléphone mobiles mais matérialiser la plate-forme d’interaction vocale par un équipement spécifique ( Echo, Dot,…) permet de mieux illustrer les rapports qu’il peut entretenir avec son environnement. Et ceux-ci sont assez différents de ceux qu’un utilisateur entretient avec son téléphone. Un smartphone est un objet privé, voire intime, alors qu’un Echo est un objet familial, voire résidentiel [3].

Limitations des offres vocales existantes

Les offres citées ci-dessus sont proposées par des entreprises dans la continuité de leur modèle économique. L’objectif de l’industriel qui les pousse sur le marché est d’aider au développement de ce modèle économique. Elles ne constituent donc pas, à ce niveau, des logiques radicalement nouvelles. Cela a des conséquences importantes sur la façon dont elles peuvent être perçues par leurs utilisateurs.

On peut ainsi lister leurs nombreuses limites. Nous verrons qu’elles ne sont pas la conséquence de contraintes techniques, mais de choix délibérés de leurs promoteurs.

  1. Langues supportées : Alexa et Google Home ne sont aujourd’hui disponibles qu’en anglais, et aussi en allemand pour Alexa[4]. Pourtant Google, Apple, Amazon et Microsoft disposent déjà d’excellents systèmes de reconnaissance vocale dans de nombreuses langues. En ne traitant que l’anglais dans un premier temps, Amazon et Google simplifient les conditions d’expérimentation de leurs systèmes, tout en étant en mesure de s’adresser à une large population.
    En effet, ces systèmes sont considérés par les entreprises qui les proposent comme étant encore en cours de développement, même si plus de 10 millions d’Echo et de Dots ont déjà été commercialisés par Amazon aux Etats-Unis. Mais la complexité réelle de leur mise au point pour aboutir à une réelle satisfaction des clients n’est encore connue de personne. Seul un usage «dans la vraie vie» permet de confronter les systèmes au public et d’en permettre ainsi une amélioration continue . Par exemple, les attentes effectives des consommateurs et la façon dont ils expriment leurs souhaits sont aujourd’hui très mal connues car jamais personne n’a essayé d’y répondre largement avec ces nouveaux moyens. Il serait bien entendu tentant de « simplement » dupliquer les systèmes existants (ceux utilisés par les call-centers par exemple) ou de créer des groupes de créativité « hors sol ». Mais ces entreprises connaissent parfaitement le monde des nouveaux services digitaux, et donc l’inefficacité de telles approches.
  2. Incapacité de « push » (services poussés) : les systèmes actuellement disponibles sont capables de répondre à des demandes initiées par leurs utilisateurs. Mais Alexa ne permet pas d’être l’initiateur de l’échange verbal. Là aussi, cette limitation n’est pas technique. Elle est choisie. Et ce pour plusieurs raisons :
    • le système ne sait en général pas qui se trouve dans son environnement et donc qui entendrait une proposition dont il serait à l’origine. Et même si des méthodes techniques permettent de savoir « qui est dans le coin », il est probable que cette personne n’ait pas envie d’être interpellée par « un robot ». Ici aussi, seul le test massif d’approches empiriques permettra de trouver la voie qui convient aux utilisateurs (Comment le système doit-il s’exprimer ? Sur quel ton ? Avec quelle niveau de familiarité ? … ). Sauvegarder et quitter
    • au-delà de ces raisons « ergonomiques » on trouve également des raisons économiques et stratégiques. Si il est possible, à l’approche du déjeuner, de proposer à un utilisateur de lui livrer un repas, la fourniture de tels services n’est pas compatible avec le modèle économique de Google, ni celui d’Amazon. Il se rapprocherait plus de celui d’Amazon mais Amazon agit toujours comme une place de marché : elle laisse l’utilisateur choisir son fournisseur.
      Dans notre cas, le système choisit de « favoriser » un fournisseur de services en proposant ses produits à l’utilisateur, masquant ainsi de-facto les offres concurrentes. Pour Amazon, masquer certains fournisseurs reviendrait à mécontenter ces clients qui quitteraient dès lors la place de marché. Une voie alternative est pourtant possible et il est même assez naturel de penser que des inter-médiateurs vont se mettre en position de choisir à la place du consommateur. Ceci est d’autant plus réaliste qu’il est possible de connaître avec grande précision les goûts, les habitudes et les attentes de chacun. Il devient alors simple de trouver le produit qui semble le meilleur dans un contexte donné et de le proposer à l’utilisateur au moment opportun. Si ce n’est finalement pas la proposition qui le tente le plus, il pourra toujours la refuser au profit d’une autre. Nous voyons bien ici que l’utilisation de l’interaction vocale ouvre naturellement la voie à des entreprises dont le modèle économique ne sera plus celui d’une place de marché mais celui d’un « prescripteur actif ».L’avènement de la voix comme méthode d’interaction ouvre donc des opportunités considérables prêtes à profiter aux premières entreprises qui oseront ces nouveaux modèles économiques. Et ceux-ci pourront difficilement être de grands acteurs en place (comme les « GAFA[5]») pour des raisons de compatibilité avec le modèle économique qui les fait actuellement grassement vivre.
  3. Aucun d’entre eux ne propose des services effectivement liés au monde réel : Les entreprises qui commencent à proposer, voire à pousser, des services vocaux sur le marché ont une capacité très réduite à proposer des services en prise avec le monde réel. Afin de réduire cette impuissance, ces entreprises mettent l’accent sur la capacité de leurs systèmes dans des domaines comme la domotique. Mais cette dernière ne génère que des revenus très réduits et de tels usages n’intéressent aujourd’hui que les quelques technophiles qui ont truffé leur habitation de gadgets complexes, coûteux et dont la fiabilité est souvent mise à défaut.Les services liés au monde réel qui sont réellement intéressants sont, par exemple, ceux liés aux services du quotidien. Simplifier drastiquement l’intervention d’une garde d’enfants pour le lendemain ou la recherche d’un peintre capable de rénover votre salon avec le meilleur rapport qualité/prix intéresse évidemment chacun d’entre nous. Pourtant, ce type de services n’est disponible sur aucune plate-forme vocale. Ceci est très lié au fait que la construction et la fiabilisation de tels services ne peuvent être assurées que par des entreprises ayant développé des compétences spécifiques considérables et un réseau de professionnels/prestataires large, dense et fiable.Réaliser cela est un travail de fourmi. Ce travail est réalisé quotidiennement par des entreprises spécifiques (conciergeries, entreprises d’aides à la personne,…) et leur connexion à une plate-forme de médiation vocale demande de traiter les axes techniques, humains, commerciaux, contractuels,… Bref, c’est un travail à très forte valeur ajoutée qui peut aujourd’hui difficilement être réalisé par une entreprise dont les compétences sont purement digitales et qui devrait pour cela – qui plus est à partir de la Silicon Valley ! – créer des liens avec une myriade d’entreprises locales.
  4. Gestion des données personnelles : pour que la fourniture de services soit réellement fluidifiée, il est nécessaire que le système en charge de l’intermédiation ait une bonne connaissance de ses utilisateurs. Qui ils sont, ce qu’ils attendent, ce qu’ils aiment, leur environnement, leurs habitudes, leurs capacités, … Si des entreprises comme Google ou Facebook sont en mesure de connaître beaucoup de ces informations grâce aux outils qu’ils mettent à notre disposition, l’exploitation de ces données privées ne sera acceptable que si la valeur des services rendus en contrepartie est parfaitement perçue par les bénéficiaires. Alors seulement, ils accepteront de perdre un peu d’intimité. Or la nature même des services actuellement proposés par Alexa, par exemple, est jugée insuffisante par les utilisateurs pour qu’ils acceptent de fournir ces informations. Seuls des services dont la nature est liée à mon intimité peuvent motiver qu’un système ait une vue sur celle-ci. Par exemple, la personne qui va venir garder mes enfants le soir doit légitimement connaître mon adresse, le code de mon immeuble et le nom de mes enfants alors qu’il est inacceptable que ces mêmes informations soient connues pour une simple livraison de pizza.
  5. Modèle économique : comme abordé plus haut, le modèle économique sur lequel repose la rentabilité des GAFA n’est pas compatible avec une offre de services réellement fluide. En effet, la rémunération d’une plate-forme d’intermédiation donnant accès à ces services prendra naturellement la forme d’une commission sur les opérations réalisées. Ce modèle économique semble évident pour les fournisseurs de services individuels (mon supermarché se rémunère par une marge sur les produits qu’il vend, AirBnB se rémunère sur une commission sur les locations qu’il rend possibles, …), mais il n’est pas actuellement exploité par les fournisseurs « globaux » de services accessibles par des interactions vocales avec les consommateurs.
  6. Gestion sociale : les technologies dont nous parlons ici sont celles qui vont peupler notre quotidien dès demain matin. De même qu’Internet a profondément impacté notre organisation sociale, l’arrivée massive de l’IA et de nouvelles méthodes d’interactions vont avoir un effet considérable à court terme. De même qu’en important un produit nous importons le modèle social du pays dans lequel il est fabriqué, les systèmes avec lesquels nous allons interagir demain matin (systèmes vocaux, internet des objets, intelligences artificielles, …) vont modeler notre propre système social. Les systèmes vocaux qui se développent actuellement viennent des Etats-Unis. Ils sont conformes aux valeurs et à l’organisation sociale des Etats-Unis. Demain matin seront disponibles des systèmes conformes aux valeurs et à l’organisation sociale de la Chine. Nous devons dès maintenant créer des systèmes conformes aux valeurs et l’organisation sociale de l’Europe.

Ces limitations des offres vocales existantes sont une opportunité pour les entreprises européennes

L’interaction vocale : un enjeu national

Comme nous l’avons vu, la nature même des relations créées par les systèmes vocaux va positionner ceux-ci au carrefour de nombreux axes concernant la Société dans son ensemble : services à la personne, économie, vie privée, paiement, fiscalité, … La nature même de tels inter-médiateurs ( la réglementation à laquelle ils sont soumis, leurs actionnaires, la transparence de leur gouvernance,…) font que leur localisation est un enjeu national.

Que de tels opérateurs ne puissent pas être créés et croître ici signerait une incapacité grave du territoire (des territoires…) à conserver les nouvelles sources de création de valeur.

De même qu’exporter des matières premières pour devoir ensuite acheter les produits finis caractérise depuis le 19e siècle les pays sous-développés, nous risquons de nous retrouver dans la même situation en ce qui concerne l’exploitation de nos données. On peut aisément imaginer un monde dans lequel un pays comme la France fournit les données, les services et les clients alors qu’un autre pays, comme les Etats-Unis, utilise les premières pour définir comment apporter les seconds aux troisièmes. Dans ce cas, la France devient totalement dépendante des Etats-Unis qui captent l’essentiel de la valeur ajoutée.

Bien que ce scénario soit conforme à la tendance actuellement observable, il ne constitue en rien une fatalité. Si les grandes entreprises du numériques sont (presque) exclusivement Etats-Uniennes à ce jour, l’arrivée massive de l’IA va induire une redistribution des cartes.

De nombreuses entreprises françaises ont les moyens de se mettre autour de cette table. Il suffit juste qu’elles en aient l’envie et puisse l’exprimer dans un contexte favorable. Le rôle de l’Etat et des collectivités dans la création de ce contexte est primordial au niveau réglementaire, fiscal, social et économique.

[1] Il est souvent considéré que le second est un cas particulier du premier mais nous verrons par la suite qu’ils constituent deux méthodes d’interaction très différentes.
[2] Il y a en effet souvent confusion entre les entreprises qui proposent des briques techniques utilisables pour créer des systèmes d’intermédiation vocale (comme par exemple un système de conversion du texte en voix) et celles qui utilisent de telles technologies pour se mettre en mesure de proposer des systèmes directement et commercialement exploitables par les consommateurs.
[3] Nous considérons ici que l’objet est attaché au lieu dans lequel il se trouve et non pas à la personne à laquelle il appartient.
[4] L’offre d’Amazon n’est d’ailleurs à ce jour accessible qu’aux Etats-Unis, au Royaume Uni et en Allemagne.
[5] GAFA = Google – Apple – Facebook – Amazon
[6] Dans la première moitié des années 2000, les téléphones mobiles proposant de nouvelles fonctions au-delà des fonctions basiques de téléphonie (photographie, jeux, messagerie, …) étaient nommées « feature phones » par les professionnels.
[7] Un des premiers smartphones au développement duquel nous avons travaillé fut le HipTop conçu par Andy RUBIN dans la société Danger qu’il avait créée. Andy a ensuite créé Androïd pour Google.

[/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section]