Comment identifier les pages de son site citées comme source par ChatGPT et les LLM ?

Portrait de Nils Talibart Nils Talibart est consultant SEO indépendant depuis 2012. Il accompagne des grands comptes (La Poste, Brico Dépôt, SeLoger) et des PME dans l'optimisation de leur visibilité. Dans cet article, il nous livre quelques astuces qu'il emploie fréquemment pour repérer l'utilisation de pages web comme sources par les bots d'IA !

Une part croissante de votre visibilité se joue désormais directement dans les réponses générées par ChatGPT, Gemini, Perplexity ou autres LLM (Large Language Model). Pourtant, si le SEO traditionnel dispose d’outils de mesure matures, le GEO (Generative Engine Optimization) reste encore une boîte noire pour beaucoup de marques. Comment savoir si vos contenus sont réellement utilisés comme source par les IA ? Comment aller au-delà des indicateurs de visibilité ou de part de voix - calculés à partir de prompts parfois éloignés des requêtes réelles de vos utilisateurs - pour privilégier des données concrètes ?

Dans cet article, je vous propose de laisser de côté les simulations de prompts incertaines pour revenir à la seule source de vérité indiscutable : vos logs serveur. Voici comment ils peuvent vous aider à identifier précisément les pages de votre site qui nourrissent les réponses des LLM.

À retenir

  • Les outils de suivi de votre visibilité dans les LLM utilisent des prompts artificiels, qui peuvent être éloignés des requêtes réelles de vos utilisateurs
  • Vos logs serveur vous permettent d'identifier les URL de votre site ayant servi de source aux réponses des LLM
  • Utilisez redirection.io pour identifier facilement vos contenus les plus souvent cités par ChatGPT, Perplexity et autres LLM
  • Croisez ces URL avec vos données Google Analytics 4 pour relier visibilité dans les LLM à votre trafic et conversions

Calculer sa part de voix ou mesurer le trafic issu des LLM : une approche imparfaite

Le GEO va encore être un des sujets clés de l’année 2026. Avec un enjeu pour les marques : mesurer sa visibilité et sa part de voix sur ChatGPT et autres LLM. De nombreux outils dédiés ont ainsi vu le jour ces derniers mois. Ils vous permettent de renseigner des prompts, ou le font automatiquement pour vous, et vont ensuite mesurer si vous êtes mentionné dans les réponses faites par ChatGPT, Gemini ou Perplexity, si votre site web sert de source, à quelle position, etc.

Cette approche présente pourtant une limite essentielle : les prompts effectués par ces outils ne sont pas du tout réalistes, et ne correspondent pas à ceux que font vos utilisateurs.

Comment, dès lors, mesurer sa visibilité sur ChatGPT et autres LLM ? Une approche classique consiste à suivre le trafic généré par son site depuis ces LLM - et nous verrons par la suite comment le faire. Toutefois, cette approche passe à côté d’un point majeur : votre contenu a pu servir de source dans la réponse apportée par le LLM… sans forcément que cela ne se traduise par du trafic vers votre site. Et, être cité dans la réponse de ChatGPT ou Perplexity, c’est potentiellement voir sa marque mentionnée, et son site web mis en avant comme source.

La seule mesure d'audience réaliste aujourd'hui, c'est de regarder dans les logs de son serveur le nombre de requêtes qui ont été faites au site web par les bots de réponse instantanée des LLM

Ce n’est pas moi qui le dit, c’est Sylvain Peyronnet (cofondateur de YourText.guru et Babbar), dans cet entretien de novembre 2025 avec Enzo Honoré que je vous invite à regarder.

Car quand un bot de réponse instantanée vient chez toi, c'est que ta page web a été considérée pour fabriquer un résultat dans ChatGPT ou autre. Ce qui veut dire que, si tu es bon, si tu as un bon EEAT (Expérience, Expertise, Autorité, Fiabilité), tu as très probablement été cité comme source et tu as peut-être eu un impact. Et si tu vois quelle est la page qui a été visitée par le bot, tu peux savoir quelles sont les pages qui ont potentiellement un impact sur tes clients dans ta chaîne de comportement des clients

Et, la bonne nouvelle, c’est que vous pouvez mesurer cela très simplement avec redirection.io !

Zoom sur les bots de réponse instantanée des LLM

Lorsque vous tapez une requête sur ChatGPT, il peut vous fournir une réponse directe basée sur ses données d'entraînement. Cependant, plus fréquemment, il va aussi déclencher plusieurs requêtes (mécanisme de query fan-out) basées sur votre demande pour aller chercher sa réponse auprès de sources externes. Il peut ainsi visiter certaines pages web pour avoir des informations à jour et sourcées.

Et, quand ChatGPT vient visiter votre site web pour s’en servir de source dans sa réponse, il laisse bien sûr une trace dans vos logs serveur, ce qui nous permet d’identifier son passage.

OpenAI utilise plusieurs robots (ou crawlers) :

  • GPTBot, qui sert à explorer des contenus utilisés ensuite pour l’entraînement des modèles d’IA générative
  • OAI-SearchBot, qui sert pour les résultats de recherche de ChatGPT Search
  • ChatGPT-User, qui se déclenche en réponse à une action utilisateur sur ChatGPT (ou dans un GPT personnalisé)

C’est ce dernier user-agent, ChatGPT-User, qui nous intéresse plus particulièrement : c’est en effet l’user-agent utilisé par ChatGPT dès lors qu’il vient visiter une page de votre site web dont le contenu est utilisé en réponse à une demande d’un utilisateur.

Exemple : Nous allons faire un test pour le site de mon client Annuaire Audition. Je demande à ChatGPT de me trouver un ORL à Angers.

Pour apporter sa réponse, ChatGPT s'appuie sur plusieurs sources : Doctolib, Annuaire Audition, le CHU d'Angers, la Clinique de l'Anjou, Santé.fr, etc. Il est allé visiter chacune de ces pages sources pour en récupérer les informations qu’il va fournir dans sa réponse.

Capture de ChatGPT qui cite ses sources

Et, en effet, quand je regarde dans mes logs serveur d’Annuaire Audition, je constate que ChatGPT vient tout juste de visiter la page de mon site qui figure parmi les sources citées.

Une ligne de log dans redirection.io

Le panel latéral de détail de la ligne de log dans redirection.io

Le fonctionnement est identique pour d’autres LLM. Par exemple, Perplexity a un crawler “Perplexity-User” qui remplit le même rôle, et peut aller visiter une page web pour aller chercher plus d’informations lorsqu’un utilisateur lui pose une question.

Identifier vos pages qui servent de source aux LLM grâce à redirection.io

Dès lors, en vous basant sur vos logs serveur, vous pouvez facilement identifier les pages de votre site web les plus visitées par les crawlers de réponse instantanée des LLM, et donc quelles sont vos pages qui servent le plus de sources dans les réponses des LLM.

Avec redirection.io, vous pouvez le faire très facilement :

  • Allez sur le détail de vos logs (Logs > Logs list)
  • Choisissez une période de temps significative pour vous (j'ai par exemple pris les 7 derniers jours)
  • Renseignez l'user-agent qui vous intéresse (ici, je veux voir mes pages qui ont le plus servi de source à ChatGPT, et je renseigne donc "ChatGPT-User")
  • Groupez les résultats par URL pour avoir vos top URL sur la période

Et voici le résultat ! J’ai la liste des URL de mon site qui ont été le plus visitées par ChatGPT-User sur les 7 derniers jours, c’est-à-dire de mes URL qui ont probablement le plus servi de source dans ChatGPT sur cette période.

Liste des visites de GPTBot dans redirection.io

Pensez à enregistrer cette vue si vous êtes amené à la consulter fréquemment. Vous pouvez également exporter ces résultats, ou les partager.

Vous pouvez bien sûr aller plus loin en les filtrant par typologie d’URL. Par exemple, il y a sur Annuaire Audition une section contenu, dont les URL commencent par “/guides/”. Je souhaite savoir plus précisément quels sont mes contenus les plus fréquemment cités comme source par ChatGPT, et je filtre alors sur ce modèle d’URL.

Liste des visites de GPTBot sur une URL dans redirection.io

N’hésitez pas également à filtrer sur le code réponse, pour s’assurer que vos pages utilisées comme source répondent bien en 200 - et que vous n’ayez pas d’erreur 404 ou 500 par exemple.

Je pourrais faire la même chose pour d’autres pages, mais aussi pour un autre LLM - Perplexity par exemple, en changeant le user-agent “ChatGPT-User” par “Perplexity-User” :

Liste des visites de PerplexityBot dans redirection.io

Vous avez ainsi une vue de vos contenus les plus visibles dans les différents LLM - ceux qui servent probablement le plus souvent de source et sont les plus souvent cités.

Ces données sont importantes pour analyser plus précisément votre parcours client (customer journey) : même si le trafic généré par les LLM reste souvent assez modeste, notamment en comparaison d’autres canaux comme le SEO, ces citations dans les LLM placent votre site en amont du parcours, au moment où l’utilisateur se renseigne, compare et affine ses critères. Votre utilisateur est en pleine phase de considération, et peut ensuite déclencher d’autres étapes plus facilement mesurables, comme une requête de marque sur Google.

Si vous optimisez votre contenu pour les LLM, monitorer les URL citées comme source par ces LLM est ainsi crucial, et vous permet d’évaluer directement l’impact de vos actions.

Mesurer le trafic issu des LLM

Nous venons de voir comment identifier vos pages qui sont les plus souvent citées par les LLM. Mais est-ce que le fait de servir de source génère ensuite du trafic vers votre site (et des conversions) ?

Pour mesurer le trafic provenant des LLM, vous pouvez l’isoler sur votre outil d’analytics. Sur Google Analytics 4, par exemple :

  • Allez sur Acquisition > Acquisition de trafic
  • Cliquez sur "Ajoutez un filtre"
  • Sélectionnez "Source de la session" en variable, et "Correspond à l'expression régulière" en type de correspondance
  • Saisissez le contenu ci-dessous en valeur et cliquez sur "Appliquer"
  • Dans le menu déroulant au-dessus du tableau, vous pouvez remplacer "Groupe de canaux principal de la session" par "Source/Support de la session" pour voir les LLM qui vous apportent le plus de trafic

Voici l’expression régulière à renseigner dans le champ “Valeur” :

.*chatgpt.com.*|.*openai.com.*|.*perplexity.*|.*mistral.ai.*|.*copilot.microsoft.com.*|.*copilot.com.*|.*copilot.cloud.microsoft.*|.*gemini.google.com.*|.*claude.ai.*|.*meta.ai.*|.*grok.com.*

Elle vous permet de filtrer le trafic issu des principaux LLM. Vous pouvez bien sûr compléter cette règle pour ajouter d’autres sources si vous le souhaitez. Pensez d’ailleurs à la mettre à jour régulièrement, ces éléments sont vite susceptibles d’évoluer.

Voici ce que cela donne :

Trafic de ChatGPT dans Google Analytics

En appliquant le même procédé sur Engagement > Pages de destination, vous pouvez voir les pages de votre site qui ont généré le plus de trafic issu des LLM.

Destination de ChatGPT dans Google Analytics

Vous pouvez aussi créer sur la section “Explorer” un rapport que vous pourrez revenir consulter régulièrement :

Rapport sur ChatGPT dans Google Analytics

Mais le plus simple reste encore de créer un rapport Google Looker Studio, sur lequel vous pourrez :

  • Afficher les données de trafic provenant des LLM par jour, par mois (de façon à suivre l’évolution)
  • Afficher le détail du trafic par LLM
  • Afficher les pages qui génèrent le plus de trafic issu des LLM
  • Afficher les données de conversion
  • Etc.

Rapport sur Chat GPT dans Looker Studio

Conclusion

Pour mesurer sa visibilité dans les LLM, plutôt que d’imaginer les prompts tapés par ses utilisateurs, la meilleure méthode reste encore de revenir au concret : analyser ses logs serveur pour identifier les pages les plus visitées par les crawlers de réponse instantanée des LLM. Ces contenus sont très probablement ceux qui sont les plus cités par les LLM pour alimenter leur réponse. Un outil comme redirection.io vous permet de le faire de façon très simple.

En combinant ce monitoring de vos URL citées comme source par les LLM à l’analyse du trafic et des conversions générés par les LLM, vous avez des données solides pour travailler l’optimisation de vos contenus pour améliorer votre visibilité dans ces mêmes LLM.