Interaction vocale et intelligences artificielles : état des lieux et opportunités

Face à la multiplication des services digitaux accessibles au consommateur, le mobile trouve ses limites et laisse d’autres modalités pointer leur nez. Parmi celles-ci, l’interaction vocale est en tête du peloton, poussée par Amazon et Google, avec un succès dont le monde non anglophone ne se rend pas encore compte. Mais ce tsunami ne laissera pas la plage dans l’état dans lequel il la trouve. Ces nouvelles modalités vont induire des nouveaux modèles économiques qui vont induire des nouveaux gagnants. De notre vieille Europe, aurons-nous le courage de jouer ce nouveau match et écouterons nous une fois de plus cette confortable paresse qui nous pousse à prétendre que les gagnants d’hier seront ceux de demain ? Analyse…

Note : je vous préviens, c’est long. Si vous n’aimez que les articles zappés et les pitch, celui-ci ne ne va pas vous plaire…

La voix : le plus court chemin de l’homme à l’intelligence artificielle

La digitalisation de notre environnement nous offre un accès à une multitude de services qu’il est théoriquement possible d’utiliser à partir d’un smartphone, d’une tablette ou d’un ordinateur dont la majorité d’entre nous est équipée.

Si les écrans de nos smartphones s’imposent actuellement comme le moyen technique roi pour gérer notre relation de consommateurs avec nos fournisseurs de biens et services, de nouvelles méthodes sont en train d’émerger de façon massive. Parmi celles-ci, la voix est en train de s’imposer, grâce à des technologies capables d’exploiter des échanges verbaux riches entre des intelligences artificielles et leurs utilisateurs/consommateurs.

On peut prévoir que ces nouvelles méthodes, et l’interaction vocale en particulier, vont induire des modifications importantes dans les habitudes des utilisateurs, mais également dans la répartition des pouvoirs et des revenus entre les entreprises souhaitant répondre aux attentes des consommateurs.

Analysons la façon dont l’interaction vocale et les intelligences artificielles vont probablement modifier de façon importante et durable ce paysage, et générer d’importantes opportunités commerciales, techniques et sociétales dont chacun peut souhaiter (ou pas…) devenir acteur, dès aujourd’hui.

Les smartphones offrent une expérience limitée

Bien que le smartphone soit aujourd’hui majoritairement considéré comme le vecteur de services le plus efficace, l’accès qu’il y offre est dans la pratique limité par un nombre de facteurs important :

  1. il faut connaître l’existence de ces services : en effet ceux-ci sont tellement nombreux qu’il est devenu totalement impossible de connaître ne serait-ce qu’une partie de ceux qui pourraient nous être utiles. Ceci d’autant plus pour ceux d’entre nous qui ne côtoient pas quotidiennement le monde numérique, que ce soit pour des raisons culturelles ou économiques.
  2. il faut penser à y faire appel au moment opportun : nombre de services ne sont utiles que dans des conditions précises. Par exemple, un service de coupe-file dans un aéroport n’est réellement utile que lorsqu’on prend l’avion (situation peu fréquente) dans un aéroport dans lequel le service est disponible (ce qui réduit encore les cas d’usage) et qu’on est contraint par un horaire. Un tel exemple illustre qu’un service peut être extrêmement utile (cet exemple permet d’éviter de manquer un avion…) dans un contexte tellement spécifique qu’il n’est pas envisageable d’y souscrire préalablement à une situation de besoin avéré.
  3. l’utilisation d’un service réclame généralement d’en être déjà connu : pour pouvoir utiliser un service, il est en général nécessaire d’y avoir souscrit. Pour qu’il soit utilisable sur un smartphone, la première action passe par le téléchargement d’une application spécifique. Or il n’est pas envisageable d’installer sur son téléphone des centaines d’applications, au risque de s’y perdre. De plus, l’essentiel de ces services demande une inscription. Celle-ci impose une procédure souvent longue (saisie des informations personnelles, saisie des moyens de paiement…) qu’un utilisateur potentiel refusera de réaliser avant d’en avoir perçu l’utilité réelle. Autre point critique : ces informations nécessitent d’être maintenues à jour. Si le service concerné est rarement utilisé, il est fort probable que les informations préalablement saisies ne seront plus à jour au moment où on en aura réellement besoin (numéro de carte de carte de crédit, numéro de téléphone, adresse postale, …).
  4. il faut savoir les utiliser : il n’existe pas de service ne nécessitant pas un minimum d’apprentissage. La multiplication des services fait qu’il devient vite impossible de se souvenir de la façon dont s’utilisent ceux que nous n’avons déjà utilisés que de façon exceptionnelle. Les risques d’échecs et de mauvaises expériences qui découlent de cette situation sont un autre obstacle important à l’extension de l’usage.
  5. la personne qui utilise un service n’est pas toujours celle qui en profite : par exemple, les services destinés aux seniors sont souvent mis en œuvre par des tiers (famille ou aidants). Pourtant, très peu permettent une telle délégation. L’utilisateur doit donc « se faire passer pour le bénéficiaire », ce qui implique une divulgation d’informations non contrôlée et non révocable (information financière par exemple). Ceci induit pour chaque partie une prise de risque posant un réel problème de responsabilité. Posséder les codes d’accès d’un tiers constitue d’ailleurs en soi une prise de risque importante qui devrait être refusée par des aidants.

Les systèmes vocaux, nouveaux vecteurs de services

Pour pallier la majorité de ces freins à l’adoption de nouveaux services, de nouvelles méthodes d’interaction sont actuellement étudiées et mises en œuvre.

On peut principalement citer les objets connectés et les systèmes vocaux [1].

Les objets connectés permettent de matérialiser des services digitaux. Un bon exemple en est le « bouton Darty » sur lequel vous appuyez lorsque vous rencontrez un problème avec votre électro-ménager. Le bouton peut directement mettre son utilisateur en relation avec le service clients de l’entreprise. En étant ainsi « toujours sous nos yeux », le service devient très simple à activer. Cela ne résout cependant pas, loin s’en faut, l’ensemble des limitations énoncées ci-dessus.

L’utilisation de la voix associée à des intelligences artificielles ouvre dès maintenant des horizons très larges. Des objets comme Echo (proposé par Amazon) ou Google Home (proposé par Google) permettent à leurs utilisateurs d’échanger directement en parlant avec l’objet qui est capable de comprendre (dans une certaine mesure) ce qu’on lui demande et de répondre à cette demande si elle fait partie de ses « compétences ».

L’usage de la voix pour exploiter des services numériques présente de nombreux avantages :

  1. un médiateur bienveillant : la voix est un « concierge » bienveillant pour les utilisateurs des systèmes qui l’utilisent. Son utilisation n’impose pas la maîtrise de l’écrit, ni celle d’un ordinateur ou d’une tablette.
  2. pas de connaissance préalable de l’existence des services : en interpellant un système de façon verbal, on peut lui exprimer un besoin sans avoir à connaître le système qui est en mesure d’y répondre. A contrario, le smartphone impose de connaître le service, d’avoir téléchargé une application qui le propose et de la démarrer pour obtenir son exécution.
  3. proactivité et contextualisation des propositions : les systèmes vocaux ont la possibilité « d’interpeller leurs utilisateurs » pour leur faire directement des propositions construites de façon très contextuelle. Par exemple, dans une automobile, il est possible de proposer un audio-guide quand on passe à proximité d’un monument historique. Dans un cadre résidentiel, de nombreux services peuvent être contextualisés, comme l’optimisation énergétique ou l’intervention d’un technicien en cas de panne d’un équipement.
  4. simplification de l’expérience utilisateur par la connaissance de l’utilisateur : le système vocal est en mesure de connaître durablement de nombreuses informations sur son ou ses utilisateur(s). Ces informations constituent des éléments de profils qui peuvent avantageusement être utilisés pour simplifier l’accès au service. Par exemple, si je programme l’intervention d’une garde d’enfants, il ne sera pas nécessaire de préciser mon adresse si le système la connait déjà. Des informations liées à mes habitudes peuvent également être retenues et réutilisées au moment opportun, comme les ingrédients que je n’apprécie pas pour la livraison de repas.
  5. pas de passage par l’écrit : l’utilisation du vocal peut éviter tout usage de l’écrit pour, par exemple, consigner des informations liées au passage d’une aide à domicile. Ceci réduit la barrière qui peut être à l’origine de la faible quantité d’informations consignées dans un cahier de liaison alors qu’il est établi que les observations alors réalisées ont une grande valeur pour le suivi sanitaire des bénéficiaires.
  6. continuité de l’expérience : utiliser le vocal pour définir les expériences utilisateurs permet un haut niveau d’indépendance entre les différents systèmes utilisés. Il est ainsi possible de proposer une continuité d’expérience entre les contextes d’utilisation, comme le domicile, l’automobile ou le portable.

On voit donc que l’ensemble des avantages de l’utilisation de systèmes vocaux (derrière lesquels sont rendues disponibles des intelligences artificielles) permet de réduire considérablement les freins à l’utilisation de nouveaux services numériques, en particulier auprès d’un public n’ayant pas, pour des raisons culturelles, sociales ou autres, développé une grande expertise dans l’utilisation continue de tels services.

Les acteurs actuels des plates-formes vocales

Les acteurs industriels qui ont déjà pris des positions industrielles sur ces sujets sont en nombre réduit et sont très majoritairement américains. Si on ne considère que ceux d’entre eux qui ne proposent pas exclusivement des outils techniques mais les accompagnent de services effectifs[2], on peut citer :

  • Apple SIRI : proposé par Apple sur ses téléphones et ses tablettes, SIRI permet d’interagir avec des services d’informations (météo, horaires de transports, loisirs, restauration, services de communication, recherche sur Internet,…).
  • Google Now : c’est un service très proche de celui proposé par SIRI. Il repose sur le même modèle économique (pas de fourniture directe de services), visant essentiellement une amélioration de l’attractivité des téléphones Androïd.
  • Amazon Alexa : la démarche d’Amazon, avec Alexa, est radicalement différente des deux précédents. Alexa est une plate-forme complète qui peut être utilisée par n’importe quel fabricant de matériel. Pour le consommateur, Alexa est un agent vocal avec lequel il peut non seulement obtenir des informations pratiques, mais également pour obtenir des biens et des services. Alexa permet par exemple de commander par un échange purement verbal une pizza qui vous sera livrée, ou de prendre un billet de train. Alexa est ouverte à deux titres :
    • n’importe quel fabricant de matériel peut l’intégrer dans ses propres équipements. Amazon lui-même l’a intégrée dans deux enceintes connectées ( Echo et Dot) mais on la retrouve aujourd’hui également dans de nombreux équipements ménager, dans des voitures,…
    • n’importe quel fournisseur de services peut intégrer un nouveau service dans Alexa. Cette intégration se réalise de façon similaire à une application mobile dans l’AppStore d’Apple ou dans le Google Play. Plus de 10 000 services sont à ce jour disponibles. Rendre un service existant effectivement utilisable sur l’équipement d’un consommateur demande cependant à ce dernier d’effectuer une démarche volontaire préalable, à la façon dont il faut télécharger une application mobile pour pouvoir l’utiliser sur son smartphone.
  • Google Home : Google Home est à ce jour similaire au couple Echo/Alexa dont il est considéré comme le principal concurrent. L’intégration dans un équipement non contrôlé par Google n’est pas encore possible et le nombre de services disponibles est beaucoup moins nombreux mais la perception que peut en avoir un consommateur est similaire.

Quelques offres asiatiques (en particulier chinoises) existent également mais elles sont cantonnées à leur marché intérieur dont les spécificités (langue, nature des offres, modèle économique) les rend à ce jour très peu compatibles avec les marchés occidentaux. Elles n’y sont d’ailleurs à ce jour pas directement visibles. Cette remarque ne doit en aucun cas être considérée comme réductrice des capacités d’entrée d’un acteur majeur chinois sur ce marché, bien au contraire !

Il faut bien considérer que les stratégies et les modèles économiques de Google et d’Amazon sont très différents. Ces différences se répercutent dans les systèmes vocaux poussés par ces deux entreprises : alors que Google gagne de l’argent par la promotion des services (publicité), Amazon en gagne par la fourniture complète des services (gestion de la promotion, de la transaction et de la logistique). La capacité du second à générer des revenus par l’utilisation d’un système facilitant l’accès des consommateurs à une très large gamme de produits et de services est donc considérablement supérieure à celle du premier.

Affinons la description des systèmes capables de fournir effectivement les services (et non pas ceux qui n’en font que la promotion): Alexa et Google Home. Il est bien évident que leurs fonctions peuvent potentiellement se retrouver sous forme d’applications destinées aux téléphone mobiles mais matérialiser la plate-forme d’interaction vocale par un équipement spécifique ( Echo, Dot,…) permet de mieux illustrer les rapports qu’il peut entretenir avec son environnement. Et ceux-ci sont assez différents de ceux qu’un utilisateur entretient avec son téléphone. Un smartphone est un objet privé, voire intime, alors qu’un Echo est un objet familial, voire résidentiel [3].

Limitations des offres vocales existantes

Les offres citées ci-dessus sont proposées par des entreprises dans la continuité de leur modèle économique. L’objectif de l’industriel qui les pousse sur le marché est d’aider au développement de ce modèle économique. Elles ne constituent donc pas, à ce niveau, des logiques radicalement nouvelles. Cela a des conséquences importantes sur la façon dont elles peuvent être perçues par leurs utilisateurs.

On peut ainsi lister leurs nombreuses limites. Nous verrons qu’elles ne sont pas la conséquence de contraintes techniques, mais de choix délibérés de leurs promoteurs.

  1. Langues supportées : Alexa et Google Home ne sont aujourd’hui disponibles qu’en anglais, et aussi en allemand pour Alexa[4]. Pourtant Google, Apple, Amazon et Microsoft disposent déjà d’excellents systèmes de reconnaissance vocale dans de nombreuses langues. En ne traitant que l’anglais dans un premier temps, Amazon et Google simplifient les conditions d’expérimentation de leurs systèmes, tout en étant en mesure de s’adresser à une large population.
    En effet, ces systèmes sont considérés par les entreprises qui les proposent comme étant encore en cours de développement, même si plus de 10 millions d’Echo et de Dots ont déjà été commercialisés par Amazon aux Etats-Unis. Mais la complexité réelle de leur mise au point pour aboutir à une réelle satisfaction des clients n’est encore connue de personne. Seul un usage «dans la vraie vie» permet de confronter les systèmes au public et d’en permettre ainsi une amélioration continue . Par exemple, les attentes effectives des consommateurs et la façon dont ils expriment leurs souhaits sont aujourd’hui très mal connues car jamais personne n’a essayé d’y répondre largement avec ces nouveaux moyens. Il serait bien entendu tentant de « simplement » dupliquer les systèmes existants (ceux utilisés par les call-centers par exemple) ou de créer des groupes de créativité « hors sol ». Mais ces entreprises connaissent parfaitement le monde des nouveaux services digitaux, et donc l’inefficacité de telles approches.
  2. Incapacité de « push » (services poussés) : les systèmes actuellement disponibles sont capables de répondre à des demandes initiées par leurs utilisateurs. Mais Alexa ne permet pas d’être l’initiateur de l’échange verbal. Là aussi, cette limitation n’est pas technique. Elle est choisie. Et ce pour plusieurs raisons :
    • le système ne sait en général pas qui se trouve dans son environnement et donc qui entendrait une proposition dont il serait à l’origine. Et même si des méthodes techniques permettent de savoir « qui est dans le coin », il est probable que cette personne n’ait pas envie d’être interpellée par « un robot ». Ici aussi, seul le test massif d’approches empiriques permettra de trouver la voie qui convient aux utilisateurs (Comment le système doit-il s’exprimer ? Sur quel ton ? Avec quelle niveau de familiarité ? … ). Sauvegarder et quitter
    • au-delà de ces raisons « ergonomiques » on trouve également des raisons économiques et stratégiques. Si il est possible, à l’approche du déjeuner, de proposer à un utilisateur de lui livrer un repas, la fourniture de tels services n’est pas compatible avec le modèle économique de Google, ni celui d’Amazon. Il se rapprocherait plus de celui d’Amazon mais Amazon agit toujours comme une place de marché : elle laisse l’utilisateur choisir son fournisseur.
      Dans notre cas, le système choisit de « favoriser » un fournisseur de services en proposant ses produits à l’utilisateur, masquant ainsi de-facto les offres concurrentes. Pour Amazon, masquer certains fournisseurs reviendrait à mécontenter ces clients qui quitteraient dès lors la place de marché. Une voie alternative est pourtant possible et il est même assez naturel de penser que des inter-médiateurs vont se mettre en position de choisir à la place du consommateur. Ceci est d’autant plus réaliste qu’il est possible de connaître avec grande précision les goûts, les habitudes et les attentes de chacun. Il devient alors simple de trouver le produit qui semble le meilleur dans un contexte donné et de le proposer à l’utilisateur au moment opportun. Si ce n’est finalement pas la proposition qui le tente le plus, il pourra toujours la refuser au profit d’une autre. Nous voyons bien ici que l’utilisation de l’interaction vocale ouvre naturellement la voie à des entreprises dont le modèle économique ne sera plus celui d’une place de marché mais celui d’un « prescripteur actif ».L’avènement de la voix comme méthode d’interaction ouvre donc des opportunités considérables prêtes à profiter aux premières entreprises qui oseront ces nouveaux modèles économiques. Et ceux-ci pourront difficilement être de grands acteurs en place (comme les « GAFA[5]») pour des raisons de compatibilité avec le modèle économique qui les fait actuellement grassement vivre.
  3. Aucun d’entre eux ne propose des services effectivement liés au monde réel : Les entreprises qui commencent à proposer, voire à pousser, des services vocaux sur le marché ont une capacité très réduite à proposer des services en prise avec le monde réel. Afin de réduire cette impuissance, ces entreprises mettent l’accent sur la capacité de leurs systèmes dans des domaines comme la domotique. Mais cette dernière ne génère que des revenus très réduits et de tels usages n’intéressent aujourd’hui que les quelques technophiles qui ont truffé leur habitation de gadgets complexes, coûteux et dont la fiabilité est souvent mise à défaut.Les services liés au monde réel qui sont réellement intéressants sont, par exemple, ceux liés aux services du quotidien. Simplifier drastiquement l’intervention d’une garde d’enfants pour le lendemain ou la recherche d’un peintre capable de rénover votre salon avec le meilleur rapport qualité/prix intéresse évidemment chacun d’entre nous. Pourtant, ce type de services n’est disponible sur aucune plate-forme vocale. Ceci est très lié au fait que la construction et la fiabilisation de tels services ne peuvent être assurées que par des entreprises ayant développé des compétences spécifiques considérables et un réseau de professionnels/prestataires large, dense et fiable.Réaliser cela est un travail de fourmi. Ce travail est réalisé quotidiennement par des entreprises spécifiques (conciergeries, entreprises d’aides à la personne,…) et leur connexion à une plate-forme de médiation vocale demande de traiter les axes techniques, humains, commerciaux, contractuels,… Bref, c’est un travail à très forte valeur ajoutée qui peut aujourd’hui difficilement être réalisé par une entreprise dont les compétences sont purement digitales et qui devrait pour cela – qui plus est à partir de la Silicon Valley ! – créer des liens avec une myriade d’entreprises locales.
  4. Gestion des données personnelles : pour que la fourniture de services soit réellement fluidifiée, il est nécessaire que le système en charge de l’intermédiation ait une bonne connaissance de ses utilisateurs. Qui ils sont, ce qu’ils attendent, ce qu’ils aiment, leur environnement, leurs habitudes, leurs capacités, … Si des entreprises comme Google ou Facebook sont en mesure de connaître beaucoup de ces informations grâce aux outils qu’ils mettent à notre disposition, l’exploitation de ces données privées ne sera acceptable que si la valeur des services rendus en contrepartie est parfaitement perçue par les bénéficiaires. Alors seulement, ils accepteront de perdre un peu d’intimité. Or la nature même des services actuellement proposés par Alexa, par exemple, est jugée insuffisante par les utilisateurs pour qu’ils acceptent de fournir ces informations. Seuls des services dont la nature est liée à mon intimité peuvent motiver qu’un système ait une vue sur celle-ci. Par exemple, la personne qui va venir garder mes enfants le soir doit légitimement connaître mon adresse, le code de mon immeuble et le nom de mes enfants alors qu’il est inacceptable que ces mêmes informations soient connues pour une simple livraison de pizza.
  5. Modèle économique : comme abordé plus haut, le modèle économique sur lequel repose la rentabilité des GAFA n’est pas compatible avec une offre de services réellement fluide. En effet, la rémunération d’une plate-forme d’intermédiation donnant accès à ces services prendra naturellement la forme d’une commission sur les opérations réalisées. Ce modèle économique semble évident pour les fournisseurs de services individuels (mon supermarché se rémunère par une marge sur les produits qu’il vend, AirBnB se rémunère sur une commission sur les locations qu’il rend possibles, …), mais il n’est pas actuellement exploité par les fournisseurs « globaux » de services accessibles par des interactions vocales avec les consommateurs.
  6. Gestion sociale : les technologies dont nous parlons ici sont celles qui vont peupler notre quotidien dès demain matin. De même qu’Internet a profondément impacté notre organisation sociale, l’arrivée massive de l’IA et de nouvelles méthodes d’interactions vont avoir un effet considérable à court terme. De même qu’en important un produit nous importons le modèle social du pays dans lequel il est fabriqué, les systèmes avec lesquels nous allons interagir demain matin (systèmes vocaux, internet des objets, intelligences artificielles, …) vont modeler notre propre système social. Les systèmes vocaux qui se développent actuellement viennent des Etats-Unis. Ils sont conformes aux valeurs et à l’organisation sociale des Etats-Unis. Demain matin seront disponibles des systèmes conformes aux valeurs et à l’organisation sociale de la Chine. Nous devons dès maintenant créer des systèmes conformes aux valeurs et l’organisation sociale de l’Europe.

Ces limitations des offres vocales existantes sont une opportunité pour les entreprises européennes

L’interaction vocale : un enjeu national

Comme nous l’avons vu, la nature même des relations créées par les systèmes vocaux va positionner ceux-ci au carrefour de nombreux axes concernant la Société dans son ensemble : services à la personne, économie, vie privée, paiement, fiscalité, … La nature même de tels inter-médiateurs ( la réglementation à laquelle ils sont soumis, leurs actionnaires, la transparence de leur gouvernance,…) font que leur localisation est un enjeu national.

Que de tels opérateurs ne puissent pas être créés et croître ici signerait une incapacité grave du territoire (des territoires…) à conserver les nouvelles sources de création de valeur.

De même qu’exporter des matières premières pour devoir ensuite acheter les produits finis caractérise depuis le 19e siècle les pays sous-développés, nous risquons de nous retrouver dans la même situation en ce qui concerne l’exploitation de nos données. On peut aisément imaginer un monde dans lequel un pays comme la France fournit les données, les services et les clients alors qu’un autre pays, comme les Etats-Unis, utilise les premières pour définir comment apporter les seconds aux troisièmes. Dans ce cas, la France devient totalement dépendante des Etats-Unis qui captent l’essentiel de la valeur ajoutée.

Bien que ce scénario soit conforme à la tendance actuellement observable, il ne constitue en rien une fatalité. Si les grandes entreprises du numériques sont (presque) exclusivement Etats-Uniennes à ce jour, l’arrivée massive de l’IA va induire une redistribution des cartes.

De nombreuses entreprises françaises ont les moyens de se mettre autour de cette table. Il suffit juste qu’elles en aient l’envie et puisse l’exprimer dans un contexte favorable. Le rôle de l’Etat et des collectivités dans la création de ce contexte est primordial au niveau réglementaire, fiscal, social et économique.

[1] Il est souvent considéré que le second est un cas particulier du premier mais nous verrons par la suite qu’ils constituent deux méthodes d’interaction très différentes.
[2] Il y a en effet souvent confusion entre les entreprises qui proposent des briques techniques utilisables pour créer des systèmes d’intermédiation vocale (comme par exemple un système de conversion du texte en voix) et celles qui utilisent de telles technologies pour se mettre en mesure de proposer des systèmes directement et commercialement exploitables par les consommateurs.
[3] Nous considérons ici que l’objet est attaché au lieu dans lequel il se trouve et non pas à la personne à laquelle il appartient.
[4] L’offre d’Amazon n’est d’ailleurs à ce jour accessible qu’aux Etats-Unis, au Royaume Uni et en Allemagne.
[5] GAFA = Google – Apple – Facebook – Amazon
[6] Dans la première moitié des années 2000, les téléphones mobiles proposant de nouvelles fonctions au-delà des fonctions basiques de téléphonie (photographie, jeux, messagerie, …) étaient nommées « feature phones » par les professionnels.
[7] Un des premiers smartphones au développement duquel nous avons travaillé fut le HipTop conçu par Andy RUBIN dans la société Danger qu’il avait créée. Andy a ensuite créé Androïd pour Google.

[/et_pb_text][/et_pb_column][/et_pb_row][/et_pb_section]

De MP3 à Napster : tout n’aurait-il pas commencé là ?

Vous souvenez-vous de « L’armée des douze singes » ? Pendant tout le film, Bruce Willis est renvoyé dans le passé pour essayer de découvrir à quel moment tout à dérapé. Si dans un siècle, ceux d’alors renvoient un explorateur à la fin du vingtième siècle pour découvrir l’instant précis où le monde a basculé dans le digital, cet article pourrait lui servir, comme la bande magnétique du répondeur de Terry Gilliam.

MP3

1988, Erlangen, Allemagne : “I am sitting in the morning at the diner on the corner…” Karlheinz Brandenburg écoute et ré-écoute en boucle Suzanne Vega chantant a capela son succès « Tom’s Diner » dans un enregistrement plein de craquements qui ne sont déjà plus ceux d’un vinyle usagé.

Karlheinz Brandenburg travaille à améliorer la qualité sonore de l’enregistrement numérique de « Tom’s diner » dans le cadre de sa thèse de doctorat à l’université d’Erlangen-Nuremberg où les jeunes ingénieurs en électronique côtoient ceux en mathématique. Le directeur de thèse de Karlheinz se nomme Dieter Seitzer. Et Seitzer a un projet, une ambition, une vision : créer un « digital jukebox » permettant à chacun d’accéder à une énorme collection de disques centralisée en utilisant les lignes de téléphone numériques que l’Allemagne commence à installer en grande quantité.

Mais nous sommes dans les années 80. Transférer un fichier contenant une plage musicale de trois minutes demande plus d’une heure, supprimant tout intérêt à un accès en ligne à la musique. Car depuis que les performances des ordinateurs leur permettent de numériser et restituer de la musique, les pionniers s’attachent à capturer l’intégralité du signal pour obtenir une fidélité acoustique maximum. Il existe certes des techniques de compression permettant de réduire la taille des fichiers sans perte d’information, mais ils sont insuffisants et le brevet que Seitzer a tenté de déposer pour cette invention a été rejeté pour cause d’impossibilité !

Mais la spécialité de Seitzer est la psycho-acoustique. Il sait que notre oreille et notre cerveau ne perçoivent pas chaque son que peut restituer un CD. En prenant en compte ces limitations, Seitzer pense qu’il est possible de dégrader légèrement le signal sonore en retirant les éléments qui ne sont pas entendus. C’est le sujet de doctorat qu’il a proposé à Brandenburg.

En 1989, Brandenburg publiera sa thèse décrivant un algorithme de compression prenant en compte les spécificités psycho-acoustiques de l’audition humaine : l’Optimum Coding in the Frequency Domain (OCF).

1988 est également l’année de création du groupe de travail MPEG (Moving Picture Experts Group) en charge du développement des standards de compression audio et vidéo pour l’ISO (International Standardisation Organisation).

L’institut Fraunhofer (Fraunhofer Institute for Integrated Circuits) associé à l’université dans le cadre du projet EUREKA/EU147 financé par l’Union Européenne et concernant la définition du système de diffusion de radio numérique DAB (Digital Audio Broadcasting) va être un contributeur important du MPEG et c’est en 1995 qu’à la suite d’un vote interne auprès des chercheurs de Fraunhofer, il est décidé que le standard de compression sonore du MPEG se nommera MP3 (MPEG Layer 3) et que « MP3 » deviendrait l’extension des fichiers sonores encodés selon cette norme.

La même année, Fraunhofer propose le premier shareware pour PC permettant la compression et la décompression de fichiers MP3.

RIO

A partir de 1995, la jeune norme MP3 va voir la création de plusieurs applications pour ordinateurs. Ces applications permettent de créer des fichiers MP3 à partir de CD et de les rejouer sans avoir techniquement à posséder le CD d’origine. Au contraire d’une copie sur cassette audio, la qualité de la version MP3 est sensiblement similaire à celle du CD d’origine et la copie successive des fichiers MP3 n’en altère aucunement la qualité. La taille réduite des fichiers obtenus en permet une diffusion facile sur Internet. En les rendant disponibles sur des serveurs ou même en les associant simplement à des e-mails.

Ces pratiques restent cependant réservées à quelques technophiles avant que trois années plus tard, en automne 1998, la société Diamond annonce la sortie aux Etats-Unis de son Rio PMP300. Le PMP300 est un appareil grand comme un demi paquet de cigarettes et capable de stocker des fichiers MP3 et de les diffuser sur un casque audio, à la façon d’un Walkman de Sony, mais avec une taille bien réduite. Pour un prix public de 200 dollars, le PMP300 stocke 30 minutes de musique.

Le PMP300 n’est pas le premier lecteur MP3 autonome. Quelques mois plus tôt, la société coréenne SaeHan Information Systems avait commencé la diffusion de son MPMan F10 aux Etats-Unis. Ce qui va faire entrer le PMP300 dans l’histoire, c’est l’énorme publicité que lui a offerte en Octobre 1998 la très puissante RIAA (Recording Industry Association of America).

Afin de défendre les intérêts des éditeurs de disques, elle déclenche le 8 octobre une action auprès de la Central District Court of California, demandant l’interdiction de la commercialisation du lecteur en vertu de l’ « Audio Home Recording Act de 1992 ».

Le juge Andrea Collins suspend temporairement la commercialisation du PMP300 mais demande à la RIAA de déposer une caution de 500 000 dollars destinée à dédommager la société Diamond si le tribunal lui donnait finalement raison.

Le 26 octobre, le juge Collins prend la décision de finalement débouter la RIAA. Cette décision sera confirmée en appel : l’offre du Rio ne contrevient pas à la législation sur le copyright. Pendant le seul mois d’octobre, Diamond vend 200 000 lecteurs, créant le marché grand public du MP3 et vulgarisant par la même occasion l’idée de l’échange de contenus numériques.

Napster

Début 1999, les adeptes de l’échange de fichiers MP3 sur Internet diffusent massivement l’acte de naissance d’une nouvelle entreprise aux Etat-Unis.

Créée par Shawn Fanning, un étudiant timide du Massachusetts, son oncle John Fanning, un entrepreneur pionnier des échecs en ligne et Sean Parker, un ami que Shawn a rencontré sur des forums électroniques, Napster propose un logiciel fondé sur la technologie du peer-to-peer. Les méthodes classiques d’échange de fichiers reposent sur des serveurs sur lesquels les fichiers peuvent être déposés pour que des tiers (nommés « clients ») puissent ensuite y accéder. Cette pratique rend le propriétaire de tels serveurs (l’hébergeur) responsable des fichiers que ses systèmes rendent disponibles.

Quand les ayant-droits d’une œuvre ainsi diffusée demandent à l’hébergeur de supprimer des fichiers qu’ils pensent enfreindre leurs droits, les hébergeurs répondent généralement favorablement afin de ne pas avoir à gérer un conflit pouvant mettre en cause leur responsabilité. Et ce d’autant plus que cette activité d’hébergement de fichiers dans un cadre légalement discutable ne génère pas pour eux de revenus additionnels mais augmente considérablement leurs charges de télécommunication, les volumes échangés pouvant rapidement être importants.

Le principe du peer-to-peer utilisé par Napster est totalement différent. Il permet à chaque ordinateur connecté sur l’internet de devenir lui-même serveur de données. Tout utilisateur de Napster devient alors client et serveur en même temps. Les fichiers ne sont dès lors plus situés sur un nombre limité de serveurs faciles à surveiller ; ils sont répartis entre l’ensemble de la communauté qui va pouvoir échanger une masse de fichiers illimitée. Avec l’hébergeur disparaissent les coûts de communication (chaque utilisateur assume ses propres coûts) et les responsabilités délicates.

Dès son lancement, Napster capte l’attention du Monde entier. La tornade de fichiers qu’il permet d’échanger sans qu’aucune autorité ne puisse y exercer un contrôle achève de démontrer la puissance d’Internet pour créer la valeur, ou l’effacer. Le terme « téléchargement » quitte les lexiques techniques pour le dictionnaire de monsieur Toutlemonde, le sens du mot « partage» change. La numérisation fait comprendre à chacun qu’on peut partager… …sans perdre la part offerte !

A une humanité bercée par les principes des biens rivaux (un bien est dit « rival » quand le fait de le donner ou le partager fait perdre à son propriétaire la propriété de la partie donnée) Napster fait découvrir une ère dans laquelle il devient possible de partager et diffuser un bien sans en perdre la jouissance… …et ce même quand il ne nous appartient pas.

Lorsque j’offre un CD à un ami, je ne le possède plus et en acquérir un nouveau va m’imposer de payer non seulement les coûts du cachet de l’artiste et la marge du vendeur, mais aussi le salaire du fabricant, les coûts de la matière plastique constitutive du disque et de sa pochette et l’amortissement des machines nécessaires à leur fabrication. Cet ensemble se nomme le « coût marginal de production ».

La fabrication du premier exemplaire d’un disque induit d’importants coûts de production, de photo, de composition graphique, d’outillage… Mais une fois ces dépenses effectuées, le second disque va pouvoir être produit pour un coût marginal très faible : le prix du plastique, du papier, de l’impression et l’usure de la machine. On peut considérer qu’au cours de la vie de tout produit, son prix va passer de « assez cher » (il faut payer les coûts de développement du premier exemplaire) jusqu’à « pas cher du tout ».

En effet, si un producteur tente de vendre cher un produit dont les coûts initiaux de production ont déjà été amortis, il est fort probable qu’un concurrent fera une offre à un prix plus bas, le seuil inférieur du prix de marché étant le coût marginal de production du produit. Descendre en dessous ferait perdre de l’argent à son producteur.

On peut donc énoncer une règle selon laquelle « le prix de tout produit converge naturellement vers son coût marginal de production ».

En supprimant (ou presque…) le coût de fabrication et de diffusion de la musique, Napster constitue pour l’industrie du disque une menace de mort immédiate. Celle-ci lance, en réaction, une bataille juridique sans précédent sur la propriété intellectuelle. À son apogée, Napster compte 70 millions d’utilisateurs. Même à l’ère de Google et de Facebook, Napster reste inscrite dans le Livre Guinness des Records comme l’entreprise ayant connu la plus forte croissance de l’histoire.

Dans l’histoire de l’Internet et de l’économie numérique, l’histoire de Napster est fondamentale. Oui l’entreprise est morte, comme la plupart des pionniers traversant les nouvelles frontières, mais Napster, rendue possible par MP3 et ses supports, a signé l’acte de naissance de l’économie numérique, rédigé les règles du jeu auquel Amazon, Uber, AirBnB, Facebook et tant d’autres allaient jouer pendant les décennies suivantes :

  • réduction des coûts marginaux de production,
  • suppression des coûts de distribution,
  • intermédiation au profit du consommateur,
  • économie du partage.

Good luck, Bruce !

Souveraineté Industrielle et Donald Attitude : l’opportunité de la liberté ?

En relisant ce texte, je me rends compte du nombre impressionnant de points d’interrogations que j’y utilise. Ça doit vouloir dire un truc mais je ne sais pas quoi… J’espère qu’ils ne vont pas bientôt faire l’objet d’un quelconque embargo, sinon mon billet deviendra totalement illisible. A lire vite, donc…

J’ai longtemps cru que le concept de « souveraineté industrielle » était une ânerie, et puis il y a eu Donald.

Avant Donald, je pensais que les entreprises privées qui se partagent la planète, de JP Morgan à Samsung, en passant par Alibaba et Google, étaient suffisamment puissantes pour que leur business soit à l’abri de toute facétie d’un gouvernement « qui compte ». Etait-il même imaginable qu’un tel gouvernement se montre un jour facétieux ?

J’imaginais difficilement Bokassa au G7 (pour les plus jeunes, voir la vidéo). Même en Chine, les tentations sur-interventionnistes étaient bordées par la nécessité de ne pas fâcher le Client Occidental. Les positions délirantes étaient réservées à la dynastie Kim et à quelques dictateurs africains illuminés.

Dans un tel contexte, que pouvait signifier « souveraineté industrielle », sinon une tentative de vieux fonctionnaires et d’élus à leur botte de restaurer la puissance perdue de l’Etat sur les entreprises enfin affranchies ?

Pourquoi craindre, dans un tel monde, que mon ordinateur « Intel inside » « Powered by Windows » puisse un jour ne plus remplir sa fonction ? Même la présence des mouchards pouvait me rassurer : on ne mure pas une porte sur laquelle on vient de poser un judas.

Et Donald arriva

Et puis Donald arrive, avec l’idée bizarre d’honorer ses promesses électorales, comme le rétablissement de l’embargo sur l’Iran (à l’exception de l’« effet de surprise »).

Et hop ! J’apprends que cet embargo me retire le droit d’utiliser mon ordinateur pour écrire à mes clients Téhéranais ! Que mon téléphone ZTE n’est plus supporté par son fabricant, lui-même condamné à mort pour avoir vendu aux habitants de pays arbitrairement transformés en parias le même modèle de téléphone que celui qui chauffe dans ma poche à moi. Par une sorte d’effet papillon donc, la lointaine décision d’un gouvernement « facétieux » réduit du jour au lendemain l’espace de liberté de l’entrepreneur naïf que je suis.

Soit, je suis naïf. Mais cet événement en fait apparaître de bien plus naïfs que moi ! Moi, pendant que j’ironise, j’utilise quand même mon ordinateur pour faire du business avec l’Iran car je ne pense pas que Donald va prendre la peine de venir frapper à ma porte. Alors que d’autres, réputés bien plus prévoyants que moi, ne peuvent pas se permettre cette liberté.

Par exemple, M. PSA et M. Airbus, eux, tout férus de sécurité qu’ils sont, n’ont même pas pris la précaution d’assurer leur propre indépendance ! Oust ! Finies les 444 000 autos par an, finis les 46 A320, les 38 A330 et les 15 A350 pour Iran Air Tour et Zagros Airline (pour 18 milliards de $ au prix catalogue) [1].

Et tout ça parce que M. STElectronics, M. Thalès, M. Bosch et tous ces champions de stratégie industrielle n’ont pas jugé utile de développer les produits pouvant garantir la liberté de leurs clients. Mais aussi parce que lorsque ces produits existent, les acheteurs ont jugé plus pertinent (moins risqué !) de leur préférer des versions US.

Vous connaissez beaucoup d’entreprises françaises majeures qui ont préféré OVH à IBM, Google et Amazon pour héberger vos données ? Qui ont décidé d’utiliser /e/ sur les téléphones portables de leurs collaborateurs ? Qui ont choisi Qwant comme moteur de recherche installé par défaut sur leurs ordinateurs ? La liste est longue…

Certains objecteront que la technologie des serveurs et des routeurs d’OVH et de Qwant, comme celle des téléphones d’/e/, vient des Etats-Unis… et qu’on ne peut au mieux que repousser le risque. En effet, il n’existe pas de composants adaptés à ces usages et n’utilisant que des technologies européennes. Faut-il d’ailleurs que cette souveraineté soit Européenne ? ou plutôt Française ? Parce que le brexit Anglais et, peut-être demain Italien ou Grec, nous démontre que la territorialité est là aussi un facteur de sécurité bien précaire.

Votez pour les licences libres

Il existe pourtant une solution répondant de façon complète à ce besoin : les licences libres. En supprimant toute dépendance à des réglementations nationales sur la propriété intellectuelle, elles rendent les systèmes qui les utilisent insensibles aux facéties politiques.

Ce n’est pas une souveraineté nationale qui nous apportera la liberté nécessaire à notre développement économique, mais un rapport différent à la propriété intellectuelle.

A l’heure où Donald dessine une géographie économique et technologique bien différente du mondialisme béat auquel nous nous étions résignés, il appartient au tissu entrepreneurial d’utiliser cela comme une opportunité unique d’investir des domaines qu’on pensait saturés. Prenons conscience que concevoir des micro-processeurs n’est plus stupide mais indispensable, dès lors qu’ils mettent en œuvre des technologies libres. Et il en est de même des systèmes d’exploitation, des outils de manipulation de l’ADN [11], ou des solutions de stockage de l’énergie…

Merci Donald. Merci de créer les conditions propices à la réalisation de projets ambitieux, de nouvelles industries qui concurrenceront enfin les leaders actuels par la qualité de leur production, la pérennité de leur utilisation et la satisfaction de leurs clients.

Au moment où j’écris ces lignes me revient la phrase de Picabia : « La seule façon d’être suivi est de courir plus vite que les autres ». Je ne sais pas pourquoi…

[1] Iran Air va donc continuer à faire voler ses vieux A300, A310 et B747 avec des approvisionnements difficiles en pièces détachées. Espérons que les cercueils iraniens ne contiennent pas de technologie US. 
[2]

Assistants vocaux & IA : la nouvelle donne du e-commerce ?

Ça y est, c’est parti ! La France va à son tour voir débouler quantité d’assistants vocaux prétendant améliorer notre quotidien. Vous, vous pensez que ce n’est encore qu’un de ces gadgets qui ne vous concernent pas et dont vous n’avez pas besoin ?

Peut-être…Peut-être en effet. Comme nous avons pensé en 1990 qu’un ordinateur personnel n’aurait jamais sa place dans notre domicile, en 1995 qu’Internet n’avait aucune utilité pour nous et comme nous avons trouvé stupide en 2005 d’envisager faire autre chose que téléphoner avec un téléphone mobile.

Alors, pensez-vous vraiment qu’aucun assistant vocal ne rentrera dans votre foyer dans les années à venir ? Amazon, Google et Apple font le pari inverse.

Les assistants vocaux entrent dans votre maison

En France, Google a ouvert le bal en sortant l’automne dernier son Google Home : une enceinte intelligente destinée à votre salon ou à votre cuisine. Cela nous permet enfin, dans l’Hexagone, de comprendre cette tendance insufflée par

Amazon aux Etats-Unis depuis 2014 en sortant Echo, un cylindre aux allures d’enceinte bluetooth dont le cerveau se nomme « Alexa ». Alexa mûrit donc loin de nos oreilles depuis quatre ans, offrant aux nord-américains[1] accès à une palette de services accessibles de façon purement vocale. Aujourd’hui, plus de 26 000 services[2] sont déjà accessibles à un utilisateur américain ! C’est ce tsunami là que la France va maintenant voir s’abattre[3] sur son territoire…

Quand certains ne voient dans l’accès vocal qu’une nouvelle méthode d’interaction avec les services de l’Internet, d’autres pensent que son impact va être beaucoup plus profond en redistribuant les cartes du e-commerce et de l’Internet, en modifiant nos pratiques.

Quand vous utilisez aujourd’hui les services d’une application mobile, c’est d’abord parce que son fournisseur a dépensé beaucoup en marketing pour en faire la promotion pour que vous en appreniez l’existence. Puis vous avez dû prendre le temps de télécharger cette application et d’y créer un compte, lui confiant ainsi vos informations personnelles, voire votre numéro de carte de crédit. Enfin, l’usage de l’application a dû vous satisfaire suffisamment pour que vous décidiez de la conserver et de l’utiliser. Si cette application est destinée à vous faire livrer ponctuellement une pizza, cela fait beaucoup d’efforts pour un bénéfice limité, effort à renouveler pour tout autre service auquel vous souhaitez accéder : courses, banque, mobilité, parking, musique, baby-sitter, énergie, tourisme, …

L’intelligence artificielle commande vos pizzas

Avec un assistant vocal évolué, rien de tout cela. Vous désirez vous faire livrer une pizza ? Demandez-lui juste « Je voudrais une pizza… ». Aucune application à débusquer ni à installer, rien à savoir, rien à préparer, pas de compte à créer ni d’informations personnelles à disséminer, pas de carte bancaire à saisir.

C’est l’intelligence artificielle de l’assistant vocal qui se charge de trouver un magasin de pizzas susceptible de répondre à votre demande. Elle vous aide à préciser votre demande et à en organiser la livraison. Même le paiement est assuré par l’assistant vocal qui a centralisé l’ensemble de vos informations. Vous avez juste à exprimer votre besoin.

En rendant accessible à chacun l’intelligence artificielle de façon naturelle, l’usage de la voix court-circuite donc toute la chaîne liant classiquement les clients aux services et aux produits qu’ils consomment. C’est l’opérateur contrôlant cette intelligence artificielle qui devient maître de l’ensemble de la chaine économique.

Qui va-t-il être chez vous ? Google ? Amazon ? Apple (qui commercialise actuellement, lui, son «HomePod ») ?

Peut-être… Mais on peut aussi imaginer d’autres scénarios. Comme l’arrivée de nouveaux entrants profitant de cette rupture technologique pour proposer d’autres approches. Pourquoi pas, par exemple, un opérateur utilisant cette technologie pour revaloriser le commerce et les services de proximité ? On peut aisément imaginer qu’une commande passée à un assistant vocal soit livrée par la supérette du coin plutôt qu’elle vienne des entrepôts d’Amazon.

Peut-être l’avenir appartient-il dès lors aux commerçants et aux prestataires de services qui sont au pied de votre porte et dont certains géants américains ont cru pouvoir vous éloigner. Ce match-là mérite en tous cas certainement d’être joué : ses enjeux sont colossaux.

[1] Depuis 2017, Alexa est aussi disponible dans d’autres pays, dont l’Allemagne (an allemand) et le Royaume-Uni.
[2] https://www.voicebot.ai/amazon-echo-alexa-stats/
[3] Amazon a commencé à effectuer des tests de la version francophone d’Alexa en Février 2018.