Quel est le problème avec les robots d'indexation d'IA ?

Les robots d'indexation d'IA sont des outils utilisés pour indexer le contenu de votre site web et utiliser les données collectées afin d'entraîner des <abbr title="Large Language Models">LLM</abbr>. Il existe de nombreuses raisons pour lesquelles vous pourriez vouloir empêcher ces robots d'accéder à votre site. Par exemple :

  • vous pourriez vouloir empêcher les modèles d'IA d'être entraînés avec votre contenu original ou vos données ;
  • vous pourriez vouloir éviter que les robots d'IA ne consomment trop de ressources sur votre serveur.

Dois-je bloquer les robots d'IA ?

Il n'y a pas de réponse tranchée à cette question : cela dépend de vos contraintes et de vos objectifs. Si votre site propose un contenu original et que vous ne voulez pas qu'il soit republié ou utilisé comme source d'inspiration par une IA, vous devriez probablement utiliser cette recette. À l'inverse, si votre objectif est de maximiser votre visibilité, il est sans doute préférable de ne pas bloquer l'IA, afin de garantir votre présence parmi les sources citées par ces plateformes.

Comment fonctionne cette recette ?

Cette recette bloque l'indexation de votre site par les robots d' <abbr title="Intelligence Artificielle">IA</abbr>. Une fois installée, elle activera deux règles sur votre site :

  1. Un fichier robots.txt : il interdit à tous les robots d'indexer votre site. Ce fichier est le moyen standard d'indiquer aux robots les parties de votre site auxquelles ils sont autorisés à accéder. Malheureusement, certains robots ne respectent pas ce fichier, c'est pourquoi nous ajoutons une seconde règle.
  2. Une règle 403 Forbidden : elle bloque complètement l'accès de tous les robots à votre site, en se basant sur leur user-agent.

Cette recette est officiellement supportée par l'équipe de redirection.io et sera mise à jour régulièrement.

Comment identifier les robots d'IA qui parcourent mon site ?

Nous proposons une "Log View" dédiée à l'analyse des robots d'IA qui explorent votre site. Sur l'écran des logs du manager, choisissez la vue "AI Bots crawlers" pour visualiser toutes les requêtes effectuées par des robots à des fins d'entraînement d'IA.

Quels robots sont bloqués par cette recette ?

Cette recette bloque les robots répertoriés dans la liste maintenue par la communauté à cette adresse : https://github.com/ai-robots-txt/ai.robots.txt.

Comment installer cette recette sur mon site ?


  1. 1. Configuration

  2. 2. Installation

  3. 3. Validation

Pour installer cette recette sur votre site web, suivez les étapes suivantes :

Afin d'installer cette recette, vous devez :

  1. Configurer le dossier dont vous souhaitez interdire l'accès aux robots d'indexation des outils d'IA : Définissez la partie de votre site web que vous souhaitez bloquer aux robots d'IA. Il peut s'agir de l'ensemble du site web ou d'une partie spécifique. Pour empêcher les robots d'indexation d'indexer l'ensemble de votre site web, vous pouvez utiliser le chemin /. Si vous souhaitez bloquer une partie spécifique de votre site web, vous pouvez utiliser un chemin plus spécifique, par exemple /blog.
  2. Définissez le contenu actuel de votre fichier robots.txt : Collez le contenu de votre fichier robots.txt actuel. Si vous n'avez pas de fichier robots.txt, vous pouvez laisser ce champ vide.
  3. Cliquez sur "Installer sur mon site web" : Installez la recette en cliquant sur le bouton "Installer sur mon site web". Les règles de la recette seront créées en mode brouillon, afin que vous puissiez les vérifier, les modifier si nécessaire, et les publier pour protéger votre site web des robots d'IA.

Veuillez examiner les règles créées. L'une d'entre elles remplace votre fichier robots.txt pour inclure les directives des crawlers d'IA, tandis que l'autre bloque complètement les requêtes des AI crawlers et répond avec un code de statut 403 - Forbidden. Si vous souhaitez n'utiliser qu'une seule de ces deux règles, vous pour supprimer l'autre.

Découvrez nos recettes !

Les recettes de redirection.io sont une fonctionnalité puissante conçue pour simplifier la mise en œuvre des meilleures pratiques de qualité front-end pour vos sites web. Considérez-les comme un "magasin d'applications" organisé pour votre site, offrant une variété de solutions préconfigurées qui peuvent être installées en un seul clic.

Découvrez toutes les recettes redirection.io