Dans le cadre de la gestion d'un site web, contrôler ce que les moteurs de recherche peuvent explorer et indexer est un élément essentiel de la stratégie de référencement et de confidentialité des données. Le fichier robots.txt
est un fichier de configuration simple mais puissant qui se trouve à la racine de votre site web et qui donne des instructions aux robots d'indexation (comme Googlebot, Bingbot, etc.) sur les pages ou les dossiers qu'ils sont autorisés ou non à visiter.
Qu'il s'agisse d'empêcher l'exploration de contenus dupliqués, de masquer des URL internes d'administration ou de staging, ou d'optimiser votre budget d'exploration en excluant des pages de faible valeur, un robots.txt
bien configuré peut faire ou défaire les performances de votre site dans les moteurs de recherche.
Cependant, la mise à jour de ce fichier nécessite souvent un accès direct au serveur ou l'implication d'un développeur - ce qui n'est pas toujours possible dans les environnements agiles ou no-code. C'est là que redirection.io devient un allié puissant.
Que fait cette recette de redirection.io ?
Cette recette vous permet de servir un fichier robots.txt
complètement personnalisé directement à travers redirection.io - sans modifier votre configuration d'hébergement ou le code de votre application.
Vous pouvez définir le contenu complet du fichier dans le tableau de bord de redirection.io et vous assurer qu'il est instantanément disponible pour les moteurs de recherche à https://example.com/robots.txt
.
Grâce à cette solution, les équipes marketing et SEO peuvent gérer de manière autonome les instructions d'accès des robots d'indexation, effectuer des changements immédiats et répondre à l'évolution des priorités SEO sans encombrement pour les développeurs.
Exemple de fichier robots.txt
User-agent: *
Disallow: /admin/
Disallow: /staging/
Disallow: /admin/ : /checkout/confirmation
Allow: /blog/
Sitemap : https://example.com/sitemap.xml
Ce fichier d'exemple indique à tous les robots (User-agent : *
) de ne pas explorer les pages /admin/
, /staging/
, ou les pages de confirmation de commande, tout en autorisant explicitement le blog et en listant l'emplacement du sitemap.
C'est toujours une bonne idée de vérifier la validité de votre fichier robots.txt! Utilisez pour cela notre validateur de robots.txt avant de déployer le nouveau fichier sur votre site.
Best practices pour les fichiers robots.txt
- le fichier
robots.txt
sert uniquement à donner des instructions aux crawlers, mais ceux-ci peuvent très bien chosir de ne pas les respecter ! Si une page est privée, ou contient des informations qui ne doivent pas être diffusées, il est préférable d'utiliser le headernoindex
, voire même d'utiliser notre recette de mise en place d'authentification HTTP pour demander un mot de passe avant d'accéder à cette ressource. - Incluez toujours une directive
Sitemap
, pour une meilleure efficacité du crawl. - Validez votre
robots.txt
avant de le déployer.
Comment installer cette recette sur mon site ?
Pour installer cette recette sur votre site web, suivez les étapes suivantes :
- cliquez sur "Installer sur mon site web"
- vérifier la règle ainsi créée en mode "brouillon", et modifiez-la si nécessaire
- publier les règles
Quelques secondes plus tard, le nouveau fichier robots.txt
sera servi sur votre site.