Comment modifier facilement son fichier robots.txt ?

Le fichier robots.txt permet de contrôler les pages et ressources auxquelles vous donnez accès aux robots d'exploration, qu'il s'agisse des robots des moteurs de recherche ou des crawlers IA.

Bien qu'il ne s'agisse que d'un simple fichier texte, sa modification peut parfois :

Être lente : chez certains clients grands comptes, elle passe par la création d'un ticket, traité avec un délai plus ou moins important
Être complexe : sur certains CMS, il est impossible d'éditer directement depuis le backoffice son fichier robots.txt, ou alors cela nécessite l'installation de plugins supplémentaires, ce qui n'est pas toujours possible rapidement si cela demande l'intervention d'un prestataire extérieur, ou n'est pas forcément souhaitable d'un point de vue sécurité

Or, en tant que responsable ou consultant SEO, vous avez généralement besoin d'agir rapidement pour modifier votre fichier robots.txt. Il existe pour cela une solution simple, compatible avec tous les CMS, pour éditer directement depuis une interface votre fichier robots.txt et publier ces modifications en quelques secondes en production.

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte situé à la racine d'un site et qui permet d'indiquer aux robots d'exploration les URL auxquelles ils peuvent ou non accéder.

En SEO, le fichier robots.txt permet ainsi d'éviter que les crawlers des moteurs de recherche n'explorent certaines URL ou répertoires inutiles pour le référencement, ces URL bloquées ayant alors une faible probabilité de ressortir dans les résultats de recherche.

De plus, l'exploration de ces URL (pages sans intérêt pour le SEO, pages en contenu dupliqué, etc.) pourrait avoir un impact sur votre budget de crawl. En effet, Googlebot, le robot d'exploration de Google, pourrait alors consacrer une grande partie de ses ressources à crawler des URL inutiles, aux dépens des pages utiles de votre site - celles que vous cherchez à positionner dans les résultats de recherche.

Attention toutefois à ne pas confondre exploration et indexation. Le fichier robots.txt permet d'empêcher l'accès à certaines URL aux robots d'exploration (ils ne pourront pas explorer les pages web ou ressources concernées), mais n'interdit pas leur indexation (c'est-à-dire que ces URL pourront tout de même ressortir dans les résultats des moteurs de recherche).

A l'heure de l'intelligence artificielle générative, le fichier robots.txt connaît par ailleurs un regain d'intérêt, puisqu'il permet également d'interdire aux crawlers IA d'explorer tout ou partie d'un site web, et ainsi de voir son contenu utilisé pour l'entraînement des modèles d'IA générative ou dans les réponses des assistants IA.

A noter toutefois que certains robots d'exploration peuvent ne pas respecter les directives de votre fichier robots.txt, qui ne sont qu'une indication, et ainsi tout de même explorer votre site.

Quelles spécifications respecter pour son robots.txt ?

Votre fichier robots.txt doit être situé à la racine de votre site. Par exemple, si votre site est accessible sur le sous-domaine www.example.com, alors votre fichier robots.txt sera accessible à l'URL https://www.example.com/robots.txt.

Si vous utilisez un autre sous-domaine, alors il vous faudra configurer un autre fichier robots.txt situé à la racine de celui-ci (par exemple : https://sous-domaine.example.com/robots.txt) et spécifique à ce sous-domaine.

Attention à correctement nommer ce fichier robots.txt (avec un "s" à robots). C'est une erreur que j'ai pu voir par le passé sur le site d'un client.

Toutes les règles relatives à son interprétation sont détaillées dans le protocole d'exclusion des robots. Google applique ce protocole, et en détaille les principales règles :

Format du fichier : il doit s'agit d'un fichier de texte brut encodé en UTF-8
Syntaxe (voir ci-dessous)
Poids : 500 kilo octets (Ko) maximum, au-delà le contenu est ignoré
Etc.

Syntaxe

Une ligne de fichier robots.txt valide se compose :

D'un champ
Du deux-points (":")
D'une valeur

Il est possible d'ajouter un commentaire en débutant la ligne par le caractère "#". Ce qui suit est alors ignoré.

Google accepte les champs suivants :

user-agent, pour identifier le robot d'exploration auquel vont s'appliquer les règles qui suivent (exemples : Googlebot, Bingbot, GPTBot, etc.)
disallow, pour indiquer les chemins d'URL à ne pas explorer
allow, pour indiquer les chemins d'URL à explorer
sitemap, pour renseigner l'URL d'un sitemap (au format absolu)

Les chemins d'URL doivent toujours commencer par "/" pour désigner la racine. Par défaut, il n'y a pas de restriction d'exploration.

L'utilisation du caractère "*" après le champ "user-agent" permet d'indiquer que les directives qui vont suivre s'appliquent à tous les robots d'exploration.

Quelques exemples

Bloquer un répertoire à l'exploration

User-agent: *
Disallow: /admin/

On interdit à tous les robots d'exploration d'accéder aux URL commençant par /admin/.

Autoriser l'accès à certaines ressources dans un dossier bloqué à l'exploration

User-agent: *
Disallow: /prive/
Allow: /prive/*.js$
Allow: /prive/*.css$

On interdit à tous les robots d'exploration d'accéder aux URL commençant par /prive/, à l'exception des fichiers se terminant précisément par .js et .css à l'intérieur de ce répertoire.

Bloquer des paramètres d'URL

User-agent: *
Disallow: /*?tri=
Disallow: /*?sessionid=

On interdit à tous les robots d'exploration d'accéder aux URL contenant les paramètres ?tri= et ?sessionid=.

Déclarer un sitemap

Sitemap: https://redirection.io/sitemap.xml

On renseigne l'URL du fichier sitemap XML pour faciliter la découverte des URL listées.

Interdire l'exploration de tout le site aux crawlers IA

User-agent: *
Disallow: /admin/

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

On interdit à tous les robots d'exploration d'accéder aux URL commençant par /admin/. Et on interdit à certains crawlers IA (GPTBot, ClaudeBot, PerplexityBot) d'accéder à l'ensemble du site.

Bonnes pratiques et erreurs à éviter

Un fichier robots.txt mal configuré peut avoir un impact important sur votre SEO, notamment si vous bloquez à l'exploration le crawl de certaines de vos pages stratégiques. Il faut ainsi veiller à respecter ces bonnes pratiques lorsque vous configurez votre fichier robots.txt :

Ne pas bloquer l'exploration des ressources essentielles (fichiers CSS, JavaScript, images) pour permettre à Google de comprendre correctement vos pages
Ne pas bloquer l'exploration de pages importantes : pour cela, vérifiez si besoin l'impact de vos règles sur vos top URL
Ne pas confondre exploration et indexation : le fichier robots.txt empêche les crawlers d'accéder au contenu de votre page, mais il ne les empêche pas d'indexer leur URL
Ajouter des commentaires lorsque le fichier robots.txt devient conséquent : migrations, fusions, anciennes et nouvelles règles… Un fichier robots.txt peut vite devenir illisible au fur et à mesure de l'évolution d'un site, d'où l'importance des commentaires
Tester vos modifications, en utilisant les outils proposés ci-dessous

Comment créer et modifier son fichier robots.txt ?

En tant que responsable SEO en charge d'un site web, ou consultant SEO travaillant pour améliorer le référencement du site de vos clients, vous pouvez être amené à vouloir modifier votre fichier robots.txt, qu'il s'agisse :

De l'optimiser en ajoutant de nouvelles lignes pour bloquer à l'exploration certaines URL sans intérêt pour les moteurs de recherche
De bloquer de nouveaux robots d'exploration, liés notamment à des modèles d'IA générative

Bien qu'anodine en apparence, puisqu'il s'agit d'un simple fichier texte à éditer, cette modification peut s'avérer longue et/ou complexe à mettre en œuvre dans certains cas.

Il faut passer par l'ouverture d'un ticket, dont le traitement peut parfois prendre plusieurs jours, voire semaines avant d'être effectif en production
Certains sites développés sur des CMS "custom" ne permettent pas d'éditer directement le fichier robots.txt, rendant la modification plus difficile et potentiellement dépendante de l'intervention d'un prestataire externe (agence web, développeur)
Même certains CMS parmi les plus utilisés sur le marché ne permettent pas d'éditer facilement le fichier robots.txt

Avant de voir par la suite comment procéder avec les principaux CMS du marché, une solution simple vous permet de modifier facilement, sans connaissances techniques et en toute autonomie votre fichier robots.txt - et ce, que vous utilisez WordPress, PrestaShop, Magento, Shopify ou une solution "custom" : redirection.io.

redirection.io

redirection.io vous permet de servir un fichier robots.txt entièrement personnalisé sur votre site, éditable depuis une interface web, et ce sans aucune modification nécessaire sur votre hébergement, et sans toucher au code de votre site web.

Dès lors que redirection.io est installé sur votre site, il vous suffit de créer une nouvelle règle depuis le manager en renseignant l'URL de votre fichier robots.txt en URL source pour pouvoir le modifier.

Si vous avez renseigné une URL absolue, redirection.io récupère automatiquement le contenu de votre fichier robots.txt actuel. Vous n'avez alors plus qu'à l'éditer pour ajouter ou modifier des directives.

The robots.txt action in a redirection.io rule

Deux autres possibilités sont proposées par défaut :

Allow all, pour autoriser tous les robots d'exploration à accéder à l'ensemble des pages de votre site (Allow: /)
Block all, pour à l'inverse interdire aux crawlers d'explorer l'ensemble de votre site (Disallow: /)

Une fois la règle enregistrée et publiée, votre fichier robots.txt est mis à jour en quelques instants seulement sur votre site. Vous pouvez ainsi le modifier quand vous le souhaitez de façon totalement autonome, sans faire appel à un développeur.

Ce mode de fonctionnement est valable quel que soit le CMS que vous utilisez, qu'il s'agisse d'un CMS "custom" ou d'un des principaux CMS du marché, pour lesquels nous détaillons ci-dessous les autres options possibles pour modifier son fichier robots.txt.

WordPress

Par défaut, WordPress génère un fichier robots.txt virtuel. Pour le modifier, vous avez deux possibilités :

Utiliser un plugin SEO

La plupart des plugins SEO les plus populaires intègrent un éditeur de fichier robots.txt. C'est notamment le cas de Yoast SEO, Rank Math, ou encore SEOPress. Il vous suffit ainsi de modifier directement le contenu de votre fichier robots.txt via l'éditeur intégré à l'extension.

Cette méthode vous évite de passer par un client FTP pour télécharger à chaque fois votre fichier robots.txt mis à jour, mais vous oblige à installer une extension supplémentaire - sauf à ce que vous utilisiez déjà ces plugins pour votre configuration SEO.

On trouve par exemple le plugin "Yoast SEO" qui propose un éditeur de fichier robots.txt accessible depuis le menu "Outils" du plugin:

Modification de robots.txt avec Yoast SEO

Le plugin "Rank Math SEO" propose également un éditeur de fichier robots.txt, accessible depuis le menu "Tableau de bord" du plugin (Tableau de bord > Advanced Mode > Réglages généraux > Modifier le robots.txt):

$Modification de robots.txt avec Rank Math SEO$

Passer par un client FTP

Si vous préférez ne pas installer d'extension, vous pouvez utiliser un éditeur de texte pour créer votre fichier robots.txt, puis télécharger celui-ci à la racine de votre site via un client FTP.

Cette méthode implique que vous ayez un accès FTP à votre serveur, avec les risques associés en cas de mauvaise manipulation, et l'absence potentielle d'autonomie sur une telle action.

PrestaShop

PrestaShop vous permet de générer un fichier robots.txt par défaut. Il faut pour cela aller sur Configurer > Paramètres de la boutique > Trafic et SEO, puis descendre tout en bas de la page jusqu'à la section "Génération du fichier robots.txt".

Attention :

Il s'agit d'un fichier par défaut, que vous ne pouvez pas personnaliser
Cliquer sur "Générer le fichier robots.txt" aura pour effet d'écraser le contenu de votre fichier robots.txt actuel

Modification de robots.txt avec PrestaShop

Pour personnaliser votre fichier robots.txt, il vous faudra :

Installer un module SEO ou un module dédié (gratuit ou payant) pour l'éditer en ligne
Télécharger à la racine de votre site un fichier robots.txt via un client FTP

Là encore, comme pour WordPress, cela vous oblige soit à télécharger un module supplémentaire, soit à passer par un client FTP - à condition bien sûr que vous ayez la possibilité de le faire.

Shopify

Shopify génère automatiquement un fichier robots.txt avec des règles d'exclusion standard. Pour le modifier, il faut créer un template robots.txt.liquid. Pour cela, il faut :

Aller sur Boutique en ligne > Thèmes
Cliquer sur les trois petits points à côté de votre thème actif et sur "Modifier le code"
Dans le dossier Modèles (Templates), ajouter un nouveau template nommé robots.txt.liquid

Shopify fournit alors une base (avec ses règles standard), que vous pouvez personnaliser en ajoutant vos règles. Il ne s'agit pas d'éditer directement un fichier, mais de surcharger dynamiquement les règles générées par Shopify.

Pour supprimer une règle par défaut existante, il faut parcourir les règles générées par Shopify et exclure celles que vous ne souhaitez plus appliquer. Cela se fait via des conditions Liquid. De même, pour modifier une règle existante, il ne suffit pas de la supprimer : vous devez la remplacer dynamiquement par une nouvelle directive.

Ce fonctionnement peut être contraignant si vous souhaitez modifier facilement et rapidement votre fichier robots.txt sans avoir de connaissances techniques sur la syntaxe ou sur le langage Liquid.

Magento

Magento propose une gestion native du fichier robots.txt, qu'il est possible d'éditer directement depuis le backoffice, sans passer par un plugin ou un accès FTP. Il faut pour cela :

Aller sur : Content > Design > Configuration
Cliquer sur modifier pour la vue de boutique concernée
Aller jusqu'à la section "Search Engine Robots"
Renseigner vos règles dans le champ "Edit custom instruction of robots.txt"

Vous pouvez aussi créer manuellement un fichier robots.txt à télécharger à la racine de votre site, dans le dossier "pub", à condition bien sûr d'avoir un accès serveur pour pouvoir le faire.

Cloudflare

A noter que Cloudflare propose une fonctionnalité "managed robots.txt", mais celle-ci vous permet uniquement de surcharger votre fichier robots.txt existant (le cas échéant) avec des règles supplémentaires pour bloquer les crawlers IA.

Cloudflare récupère alors le contenu de votre fichier robots.txt existant (ou en crée un vide sinon), et ajoute juste avant plusieurs directives pour interdire aux principaux crawlers IA d'explorer le contenu de votre site.

Cette solution ne vous permet pas de personnaliser votre fichier robots.txt en ajoutant vos propres règles ou en éditant vos règles existantes. En revanche, l'installation de redirection.io via Cloudflare vous permet de le faire.

Comment tester et valider son fichier robots.txt

Votre fichier robots.txt est en place ? Pensez à bien le tester pour vous assurer de n'avoir commis aucune erreur de syntaxe et que vous ne bloquez aucune URL importante pour votre SEO.

Veillez en particulier à :

Vérifier la syntaxe : pas de règles ou de directives incohérentes
Tester vos top URL, pour vous assurer qu'elles ne sont pas bloquées suite aux modifications effectuées
Lancer un crawl en simulant un user-agent (Googlebot notamment) pour analyser l'impact

Les outils suivants vous permettent de vérifier ces différents points.

Avec l'outil de redirection.io

redirection.io propose un outil gratuit pour tester votre fichier robots.txt. Il vous permet d'avoir un récapitulatif des règles (Allow, Disallow) par user-agent, et de vérifier la syntaxe et la validité de ces directives.

Le validateur de robots.txt de redirection.io

Avec Screaming Frog

Screaming Frog permet de faire le crawl d'un site :

Soit en ignorant le fichier robots.txt
Soit en respectant le fichier robots.txt actuel
Soit en utilisant un fichier robots.txt personnalisé

Cette dernière fonctionnalité est extrêmement pratique si vous n'êtes pas certain de l'impact sur le crawl de votre site des modifications apportées à votre fichier robots.txt, puisque vous pouvez les tester en amont.

Vous pouvez aussi renseigner directement certaines URL et vérifier si elles sont bloquées par votre fichier robots.txt (actuel ou personnalisé). Screaming Frog vous indique même précisément la ligne à l'origine du blocage - le cas échéant.

Le rapport robots.txt de Screaming Frog

Avec Google Search Console

Google Search Console dispose également d'un rapport sur le fichier robots.txt. Ce rapport est accessible en allant sur Paramètres > robots.txt. Il précise notamment :

La date de dernière exploration du robots.txt
Les avertissements ou erreurs rencontrées

Il vous permet aussi d'afficher la dernière version récupérée par Googlebot, et de demander si besoin une nouvelle exploration.

Ce rapport est très pratique pour s'assurer que Google ne rencontre aucun problème pour récupérer votre fichier robots.txt, et vérifier le cas échéant les lignes problématiques.

Exemple d'erreur rencontrée sur un fichier robots.txt :

Si vous avez configuré une propriété domaine, vous aurez un aperçu du fichier robots.txt des 20 principaux hôtes de votre domaine.

Monitorer son fichier robots.txt

Votre fichier robots.txt est en ligne, et vous l'avez validé ? Assurez-vous désormais qu'il ne subisse aucune régression, qu'il s'agisse d'un changement de code réponse ou d'une modification du contenu non souhaitée.

Avec redirection.io

Grâce à l'analyse des logs en temps réel, redirection.io vous permet d'identifier si votre fichier robots.txt renvoie un code réponse autre que 200. Vous pouvez ensuite configurer une alerte pour être averti en temps réel d'une anomalie.

Création d'une Log View dédiée au suivi du robots.txt

Depuis le manager, aller sur Logs > Logs list
Filtrer sur les URL contenant robots.txt (ou sur l'URL précise de votre fichier robots.txt), et sur les codes réponses différents de 200
Sauvegarder la "log view" (vous pouvez par exemple l'appeler "Fichier robots.txt - Code réponse non 200")
Configurer une notification (Settings > Notifications) pour être alerté dès qu'une nouvelle entrée est détectée dans cette log view

Création d'une notification pour le suivi du robots.txt

Vous pouvez bien sûr affiner le filtrage en vous focalisant par exemple uniquement sur un user-agent.

Avec Oseox Monitoring

Lorsque vous ajoutez un domaine à surveiller, Oseox Monitoring ajoute automatiquement l'URL de votre fichier robots.txt en surveillance. Vous recevez ainsi une alerte dans l'heure ou dans la journée (selon la fréquence de monitoring choisie) si jamais le code réponse de votre fichier robots.txt évolue ou s'il y a la moindre modification sur le contenu de votre fichier robots.txt.

Alerte Oseox Monitoring pour le fichier robots.txt

Ceci est extrêmement utile pour identifier toute régression.

Pour l'anecdote, il y a quelques années, cela m'a permis de prévenir dans l'heure un client e-commerçant qui venait d'interdire l'exploration de tout son site internet (directive Disallow: / dans le fichier robots.txt) à tous les robots - Googlebot compris, donc. S'agissant d'un site internet générant plusieurs millions d'euros de chiffre d'affaires, les conséquences auraient pu être majeures.

Interdiction de l'exploration du site

Conclusion

Le fichier robots.txt fait partie des basiques du SEO. Pourtant, sa modification est loin d'être aisée sur les principaux CMS du marché, et peut parfois nécessiter l'intervention d'autres ressources, qu'elles soient internes (développeur) ou externes (agence web). Cette modification peut par ailleurs nécessiter des délais importants avant d'être effective en production chez certains clients grands comptes, difficilement compatibles avec la mise en place d'optimisations rapides pour un responsable ou un consultant SEO.

redirection.io offre alors une solution facile et rapide pour modifier son fichier robots.txt, en permettant de l'éditer directement depuis une interface web, et de publier en quelques secondes en production les modifications effectuées. Les équipes SEO et/ou marketing gagnent ainsi en temps et en autonomie, et n'ont pas à solliciter d'autres équipes ou prestataires.