Configurer le robots.txt

Dans le cadre de la gestion d'un site web, contrôler ce que les moteurs de recherche peuvent explorer et indexer est un élément essentiel de la stratégie de référencement et de confidentialité des données. Le fichier robots.txt est un fichier de configuration simple mais puissant qui se trouve à la racine de votre site web et qui donne des instructions aux robots d'indexation (comme Googlebot, Bingbot, etc.) sur les pages ou les dossiers qu'ils sont autorisés ou non à visiter.

Qu'il s'agisse d'empêcher l'exploration de contenus dupliqués, de masquer des URL internes d'administration ou de staging, ou d'optimiser votre budget d'exploration en excluant des pages de faible valeur, un robots.txt bien configuré peut faire ou défaire les performances de votre site dans les moteurs de recherche.

Cependant, la mise à jour de ce fichier nécessite souvent un accès direct au serveur ou l'implication d'un développeur - ce qui n'est pas toujours possible dans les environnements agiles ou no-code. C'est là que redirection.io devient un allié puissant.

Que fait cette recette de redirection.io ?

Cette recette vous permet de servir un fichier robots.txt complètement personnalisé directement à travers redirection.io - sans modifier votre configuration d'hébergement ou le code de votre application.

Vous pouvez définir le contenu complet du fichier dans le tableau de bord de redirection.io et vous assurer qu'il est instantanément disponible pour les moteurs de recherche à https://example.com/robots.txt.

Grâce à cette solution, les équipes marketing et SEO peuvent gérer de manière autonome les instructions d'accès des robots d'indexation, effectuer des changements immédiats et répondre à l'évolution des priorités SEO sans encombrement pour les développeurs.

Exemple de fichier robots.txt

User-agent: *
Disallow: /admin/
Disallow: /staging/
Disallow: /admin/ : /checkout/confirmation
Allow: /blog/

Sitemap : https://example.com/sitemap.xml

Ce fichier d'exemple indique à tous les robots (User-agent : *) de ne pas explorer les pages /admin/, /staging/, ou les pages de confirmation de commande, tout en autorisant explicitement le blog et en listant l'emplacement du sitemap.

Best practices pour les fichiers robots.txt

le fichier robots.txt sert uniquement à donner des instructions aux crawlers, mais ceux-ci peuvent très bien chosir de ne pas les respecter ! Si une page est privée, ou contient des informations qui ne doivent pas être diffusées, il est préférable d'utiliser le header noindex, voire même d'utiliser notre recette de mise en place d'authentification HTTP pour demander un mot de passe avant d'accéder à cette ressource.
Incluez toujours une directive Sitemap, pour une meilleure efficacité du crawl.
Validez votre robots.txt avant de le déployer.

Comment installer cette recette sur mon site ?

1. Configuration
2. Installation
3. Validation

Pour installer cette recette sur votre site web, suivez les étapes suivantes :

cliquez sur "Installer sur mon site web"
vérifier la règle ainsi créée en mode "brouillon", et modifiez-la si nécessaire
publier les règles

Quelques secondes plus tard, le nouveau fichier robots.txt sera servi sur votre site.

Que fait cette recette de redirection.io ?

Exemple de fichier robots.txt

Best practices pour les fichiers robots.txt

Comment installer cette recette sur mon site ?

Découvrez nos recettes !

Redirection d'un domaine pleinement qualifié

Contrôlez l'indexation de vos pages

Validation de Bing Webmaster Tools

Rediriger le domaine racine vers www

Bloquer les requêtes suspectes ou l'accès à des fichiers sensibles

Modifier la balise méta title

En-tête HSTS (HTTP Strict Transport Security)

Redirection d'un dossier

Propriété Google Search Console