Quel est le problème avec les robots d'indexation de l'IA ?

Les robots d'indexation d'IA sont des outils utilisés pour indexer le contenu de votre site web et utiliser les données indexées pour former des LLM. Il existe de nombreuses raisons pour lesquelles vous pourriez vouloir empêcher ces robots d'accéder à votre site web. Par exemple :

  • vous pourriez vouloir empêcher les modèles d'IA d'être formés à partir de votre contenu ou de vos données d'origine ;
  • vous pourriez vouloir empêcher les robots d'intelligence artificielle de consommer trop de ressources sur votre serveur.

Comment fonctionne cette recette ?

Cette recette empêche les AI robots d'indexer votre site web. Une fois installée, elle activera deux règles sur votre site web :

  • Un fichier robots.txt, qui interdit à tous les robots d'indexer votre site web. Ce fichier est le moyen standard d'indiquer aux robots les parties de votre site auxquelles ils sont autorisés à accéder. Malheureusement, certains robots ne respectent pas ce fichier, nous devons donc ajouter une deuxième règle pour nous assurer qu'ils sont bloqués.
  • Une règle 403 Forbidden, qui bloque complètement tous les bots d'accéder à votre site web, en se basant sur leur user-agent.

Cette recette est officiellement supportée par l'équipe de redirection.io et sera mise à jour régulièrement.

Comment identifier les robots d'intelligence artificielle qui parcourent mon site web ?

Nous proposons un "Log View" dédié à l'analyse des robots d'intelligence artificielle qui explorent votre site web. Dans l'écran des journaux du gestionnaire, choisissez la vue "AI Bots crawlers" pour voir toutes les requêtes effectuées par les robots à des fins d'entraînement à l'IA.

Quels sont les robots bloqués par cette recette ?

Cette recette empêche les robots suivants d'explorer votre site web :

Comment installer cette recette sur mon site ?

Pour installer cette recette sur votre site web, suivez les étapes suivantes :

Afin d'installer cette recette, vous devez :

  1. Configurer le chemin dont vous souhaitez interdire l'accès aux robots d'indexation des outils d'IA : Définissez la partie de votre site web que vous souhaitez bloquer aux robots d'IA. Il peut s'agir de l'ensemble du site web ou d'une partie spécifique. Pour empêcher les robots d'indexation d'indexer l'ensemble de votre site web, vous pouvez utiliser le chemin /. Si vous souhaitez bloquer une partie spécifique de votre site web, vous pouvez utiliser un chemin plus spécifique, tel que /blog.
  2. Définissez le contenu actuel de votre fichier robots.txt : Collez le contenu de votre fichier robots.txt actuel. Si vous n'avez pas de fichier robots.txt, vous pouvez laisser ce champ vide.
  3. Cliquez sur "Installer sur mon site web " : Exécutez le processus d'installation en cliquant sur le bouton "Installer sur mon site web". Cette action créera les règles de redirection.io associées en mode brouillon, afin que vous puissiez les réviser, les modifier si nécessaire, et les publier pour protéger votre site web des robots d'IA.

Veuillez examiner les règles créées. L'une d'entre elles remplace votre fichier robots.txt pour inclure les directives des AI crawlers, tandis que l'autre bloque complètement les requêtes des AI crawlers et répond avec un code de statut 403 - Forbidden. Vous pouvez souhaiter n'utiliser qu'une seule de ces deux règles.

Découvrez nos recettes !

Les recettes de redirection.io sont une fonctionnalité puissante conçue pour simplifier la mise en œuvre des meilleures pratiques de qualité front-end pour vos sites web. Considérez-les comme un "magasin d'applications" organisé pour votre site, offrant une variété de solutions préconfigurées qui peuvent être installées en un seul clic.

Découvrez toutes les recettes redirection.io