Il y a peu de temps, j’ai eu la chance de participer à « Vrai ou Fake » sur France Info TV où une partie de l’émission a été consacrée à un sujet sensible : des moteurs de recherche de plusieurs sites e-commerce mettraient en avant des livres complotistes, révisionnistes et antisémites. En d’autres termes, sont-ils malveillants ?

Mais ces sites le sont-ils vraiment ?

Remarque importante : bien évidemment ils ne le sont pas. L’article vise à expliquer le fonctionnement de ces moteurs et de mettre en avant le degré de responsabilité légale de ces derniers.

Pourquoi traiter ce sujet ?

Tout est parti d’un tweet du collectif Stop Hate Money montrant des exemples flagrants où certains moteurs de recherche de sites e-commerce comme La FNAC ou Amazon mettant en avant des produits prônant le complotisme, le négationnisme ou étant à la limite de l’incitation à la haine.

Le Monde a ensuite fait un article sur le sujet, suivi par Vrai ou Fake qui a elle-aussi décortiqué la problématique lors de son émission (je vous invite chaudement à la regarder, elle est toujours hyper intéressante). Mais La FNAC, Amazon et les autres types de moteurs de recherche mettent-ils vraiment en avant ce type de contenus et de produits de façon volontaire ?

Oui, et non…

Un moteur de recherche, cela fonctionne comment ?

Le principe de base

Avant de vouloir juger une éventuelle responsabilité et même une volonté de la part de ces sociétés de mettre en avant ce type de contenus, il faut comprendre le fonctionnement classique d’un moteur de recherche.

Au départ, cela reste purement et simplement du code. Il n’y a pas « d’intelligence artificielle » comme on aime l’imaginer en science-fiction, mais uniquement des fonctions et des formules mathématiques. Le fondement même d’un moteur de recherche d’un site e-commerce (ou d’un moteur de recherche web classique comme Google ou Bing) est d’ailleurs très simple : un utilisateur fait une recherche, et le moteur va lister tous les contenus ou produits qui contiennent ce terme.

Chaque société derrière un outil de recherche se heurte alors à un problème simple : une recherche basique avec des mots ne suffit pas à comprendre réellement la recherche effectuée et l’intention de l’utilisateur, et cela ne permet pas non plus de trier et classer efficacement du contenu. Chaque moteur de recherche va donc alors évoluer et s’améliorer en prenant en compte de nouveaux paramètres, en pondérant certains d’entre eux et en appliquant des règles, des filtres et des algorithmes différents en fonction de chaque thématique ou de chaque type de recherche.

Quelles différences entre un moteur de recherche comme Google et ceux des sites e-commerce ?

Tout est différent, rien n’est différent

Il y a de nombreux éléments en commun, parfois aucun. En réalité, on ne va pas différencier les moteurs de recherche par typologie, mais bel et bien par société. Les formules, codes et algorithmes utilisés seront différents sur les sites de La FNAC, Amazon, Rue Du Commerce et CDiscount. Ce sera pareil entre Google, Bing, DuckDuckGo ou encore Qwant. Chacun évolue de façon indépendante, avec des problématiques et objectifs parfois communs, parfois complètement opposés.

Toutes les entreprises du web se heurtent d’ailleurs à cette problématique : mieux comprendre une recherche et mieux comprendre un contenu (ou un produit), c’est cela qui permet de proposer de meilleurs résultats. Ainsi, les moteurs de recherche évoluent d’année en année. Ceux e-commerce le font sans annonce particulière auprès de leurs utilisateurs,  tandis que les moteurs de recherche classique le font publiquement, comme très récemment avec BERT, une nouvelle évolution annoncée par Google (on verra plus si cela change quelque chose en référencement naturel).

La différence réelle entre ces deux typologies de sites, c’est la façon de créer sa base de données, à savoir la liste des contenus présents sur le web pour les uns, et un catalogue de produits pour les autres :

  • Les sites e-commerce vont mettre en ligne leur propre catalogue de produits et livres et/ou ils vont importer ceux de leurs revendeurs (on est alors sur ce qu’on appelle une place de marché, c’est à dire un seul site vendant des produits d’autres sociétés) ;
  • Les moteurs de recherche vont crawler le web, ce qui veut dire qu’ils vont parcourir toutes les pages une à une pour ensuite pouvoir les proposer à l’internaute.

Pourquoi un contenu ou un produit apparaît en premier ?

Cette question est complexe, car chaque entreprise y va de sa propre formule. Chaque moteur de recherche possède ses propres critères et va donc classer de façon très différente des résultats pourtant identiques à la base. Ces critères vont d’ailleurs évoluer sans cesse avec la prise en compte de nouveaux aspects, en écartant certains d’entre eux ou encore en pondérant différemment ceux existants. Un contenu ou un produit pourrait par exemple être positionné en premier grâce à ces critères :

  • la qualité du contenu ;
  • la pertinence du contenu par rapport à la demande ;
  • la popularité du site, de la page ou du produit ;
  • le taux de clic (le pourcentage d’internautes qui ont cliqué sur cette offre ou cette URL) ;
  • pour un produit :
    • le prix ;
    • les avis et commentaires ;
    • la marge que l’on peut espérer si l’on vend ce produit ;
    • les mises en avant commerciales ;
  • Etc.

Si je prends un moteur que je connais bien, voici un exemple concret : on estime que Google modifie son « algorithme » plusieurs milliers de fois par an, parfois manuellement, parfois de manière automatique. En 2018, la firme américaine a ainsi réalisé 3 234 changements. Gardez toujours en tête que tous les moteurs de recherche sont concernés par cette évolution perpétuelle (même si elle est souvent moins fréquente sur des moteurs de type e-commerce).

Peut-on vraiment comprendre le fonctionnement d’un moteur de recherche ?

Malheureusement non, c’est impossible. On peut constater un changement de résultats sur une recherche précise, mais difficile de pouvoir être sûr à 100% du critère qui a provoqué cette modification. C’est le jeu du chat et de la souris pour le métier de consultant SEO.

C’est plus facile à analyser sur un moteur de recherche e-commerce, car le catalogue est normé pour les produits (chaque vendeur doit envoyer un fichier avec le même type d’informations à la place de marché). Il est ainsi plus aisé de deviner pourquoi tel produit est devant un autre. Mais même là, c’est un exercice complexe et hasardeux.

Peut-on trouver des contenus antisémites, complotiste ou racistes ?

Malheureusement oui

Si on en vient au cœur du sujet, oui, il est tout à fait possible (et facile) de trouver ce type de contenus. Certains sites s’en sortent mieux que d’autres. Prenons l’exemple de la recherche « Vérité Chambre à Gaz » qui renvoie en 1ère position un résultat négationniste sur Bing, DuckDuckGo et Qwant :

Recherche avec résultat négationniste
Un exemple de contenu négationniste sur Qwant

En voici un second exemple sur un site e-commerce français, avec la même recherche qui propose en premier un livre révisionniste :

Recherche "Chambre à Gaz" sur un site ecommerce
Un exemple sur La Fnac

On notera d’ailleurs que le livre est à la fois référencé sur les boutiques e-commerce via leur moteur de recherche interne, mais aussi avec le nom du livre directement sur les moteurs de recherche classiques :

Recherche "Vérité historique ou vérité politique" sur Google
Google référence aussi les sites de vente

Les moteurs de recherche sont-ils responsables ?

Là encore, la réponse est vraiment très ambiguë : oui, ils sont responsables, et non, ils ne le sont pas…

C’est un sujet très complexe, surtout pour un moteur de recherche naturel. Théoriquement, leur responsabilité peut être engagée. En effet, tout éditeur ou tout hébergeur de contenus (même un simple listing) est responsable de ce qu’il affiche à l’internaute.

Le législateur défini en outre un éditeur comme toute personne physique ou morale dont l’activité est d’éditer un service de communication au public en ligne, et certaines jurisprudences ont aussi désigné l’éditeur comme toute personne qui va jouer un rôle actif dans le choix des contenus et publications mises en ligne (source). Pour simplifier, l’éditeur d’un site est donc à priori responsable de tous les contenus qui s’affichent sur son site, quels qu’ils soient et peu importe leur provenance. Si l’on publie des résultats ou des produits enfreignant la loi, ils sont théoriquement responsables devant la loi.

Mais les moteurs de recherche naturels sont traités différemment et au cas par cas. Le simple listing de références basé sur des mots clés ne relèverait par exemple pas du droit d’auteur (et donc théoriquement ce serait aussi le cas sur les lois pénales liées au racisme et aux sujets du même acabit). Cet excellent article détaille d’ailleurs tous les différents aspects de cette responsabilité et montre toute la complexité de ce sujet auprès du législateur (sans compter le fait qu’il faut aussi savoir si c’est la juridiction française ou celle du pays de l’entreprise qui s’applique).

Si un professionnel du droit passe par ici, son avis nous serait fort utile en commentaire.

Les moteurs de recherche ne maîtrisent pas leurs contenus

C’est là tout le problème. Quand on importe des produits sur un site e-commerce, on ne peut tous les contrôler. Les flux peuvent comporter des dizaines de milliers de références, toutes mises à jour, modifiées, ajoutées ou supprimées plusieurs fois par jour. Idem pour les moteurs classiques qui vont parcourir le web en continu en brassant des millions et des millions de contenus différents.

Évolution du CA d’Amazon
La croissance d’Amazon montre l’impossibilité humaine de tout contrôler (source)

Il est humainement impossible pour ces sociétés de contrôler chaque produit ou contenu. Même s’ils voulaient vérifier la légalité de chacun d’entre eux, ils n’en auraient pas les moyens humains. Le seul choix qui reste est de corriger à postériori, ou bien d’améliorer leur système de recherche au fur et à mesure.

Le biais de vision de l’utilisateur

Quand on analyse la volonté ou non de ces moteurs de donner un accès à ces types de contenus, il y a un élément indispensable à prendre en compte : l’internaute qui fera la recherche. La plupart des gens ne vont pas explicitement rechercher des produits ou des pages antisémites, complotistes et autre. En règle générale, nous allons tous faire des recherches classiques, certaines pouvant nous proposer des résultats non désirés.

Ceux qui sont déjà ouvertement homophobes, racistes ou antisémites, ce sont eux qui vont formuler des recherches explicites en ce sens. Par exemple, si je ne crois pas aux chambres à gaz, je ne vais pas taper « chambres à gaz » ou « chambre à gaz histoire« . Je ferais une recherche sur « mensonge chambre à gaz » ou « vérité chambre à gaz« .

La façon même dont on formule sa demande implique des résultats différents.

Comment un moteur de recherche peut-il combattre cela ?

Rome ne s’est pas faite en un jour. C’est pareil pour tous les types de moteurs de recherche. Ils ont commencé par des formules et un code basique avant de l’améliorer au fur et à mesure des années.

Il faut à la fois anticiper les problématiques pour aider le moteur à « comprendre » le contenu, tout en patchant et corrigeant après constatation des résultats indésirables. C’est un travail de longue haleine, et qui ne se terminera malheureusement jamais avec un index et un catalogue qui va évoluer évolue sans cesse.

On peut par contre noter les priorités de certains. Facebook va ainsi filtrer très rapidement les contenus liés à la nudité, beaucoup moins vite ceux racistes ou illégaux. C’est ce que montre cet exemple d’un photographe ayant partagé une image avec une femme seins nus et des propos racistes, publication censurée en vitesse pour « nudité » :

Contenu sur Facebook : nudité et racisme
Un exemple de contenu censuré pour nudité, et non pour racisme (source)

Et que peut faire l’utilisateur ?

C’est la clé. Comme l’état de l’art technologique actuel ne permet pas de pouvoir comprendre réellement un contenu, et qu’il est humainement impossible de contrôler manuellement chaque URL ou chaque produit, c’est à l’utilisateur qu’il revient de signaler à l’entreprise la problématique. Pour cela, voici quelques liens utiles :

Mais attention, ce n’est pas parce que vous signalez la problématique que le contenu va disparaître. Certaines sociétés traitent vos demandes (réponses automatiques ou semi-automatiques) et vous annoncent que non, l’URL signalée ne pose pas problème. Prenons par exemple les groupes Facebook qui organisent le vol de contenu PDF ou d’e-book, sans que le réseau social ne réagisse à chaque signalement :

Groupe Facebook qui vole des e-bookss
Un exemple de groupe Facebook qui enfreint le droit d’auteur (source Benjamin Lupu)

Ce constat nous amène à la solution du dernier recours : en cas d’inaction, faites un signalement auprès des autorités compétentes, ou bien ici sur le site de la CNIL (sans aucune garantie là non plus que ce soit pris en compte).

Vous savez ce qu’il vous reste à faire 😉