Comprendre et limiter les requêtes vers /meta.json

Au cours des dernières semaines, notre équipe a observé une augmentation significative du trafic automatisé en provenance de Meta (Facebook) ciblant un chemin spécifique : /meta.json.

Si vous surveillez les logs de votre site web, vous avez peut-être remarqué un afflux de requêtes provenant du user-agent facebookexternalhit/1.1 vers ce fichier pourtant inexistant (la chaîne exacte du user-agent est facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)). Bien que Meta n'ait pas encore documenté officiellement l'objectif de ces requêtes, les données que nous avons collectées sur des milliers de sites permettent d'éclairer la situation.

Ce que nous disent les chiffres

D'après nos métriques, il ne s'agit pas d'un phénomène isolé mais de requêtes systématiques et à grande échelle :

une portée étendue : environ 17% de tous les domaines surveillés par redirection.io reçoivent un volume significatif de ces requêtes.
un volume de trafic élevé : pour les domaines concernés, ces requêtes représentent généralement 1% du trafic total.
des cas extrêmes : sur certains sites, le chemin /meta.json peut représenter jusqu'à 20% de toutes les requêtes entrantes (et atteint même 34% dans un cas spécifique).
lien avec les campagnes : environ 65% de ces requêtes incluent des paramètres d'URL (query strings) contenant des noms de campagnes réels ou des paramètres de suivi.

Pourquoi Meta fait-il cela ?

La présence de paramètres spécifiques aux campagnes suggère fortement que ces requêtes font partie d'un processus de vérification automatisé. Meta cherche probablement un fichier de configuration standardisé - possiblement lié à Meta Ads, à l'API de conversions (CAPI) ou à des tests de santé du Business SDK - afin de vérifier comment une page de destination gère le suivi ou les métadonnées.

Les requêtes proviennent des plages IP officielles de Meta (par exemple des CIDR 69.171.224.0/19, 69.63.176.0/20 ou 173.252.64.0/18, etc.), ce qui confirme qu'il s'agit bien du comportement légitime d'un crawler et non d'une attaque malveillante. Cependant, comme la plupart des sites n'hébergent pas de fichier meta.json, ces requêtes se soldent par des erreurs "404 Not Found"... Et produisent donc du trafic pour rien !

L'impact sur votre site web

Si quelques erreurs 404 sont inoffensives, le volume de ces requêtes peut en revanche engendrer de réels problèmes :

Surcharge du serveur : Chaque fois qu'un robot sollicite votre site, votre backend (CMS ou application) doit parfois se "lancer" pour générer une page 404, consommant ainsi du processeur et de la mémoire.
Pollution des logs : Vos outils d'analyse et vos journaux d'erreurs peuvent se retrouver encombrés de milliers d'entrées inutiles, ce qui rend plus difficile la détection de véritables problèmes techniques.
Poser des soucis de scalabilité : Pour les sites où ce trafic atteint 20% ou plus, cela peut ralentir inutilement la navigation des visiteurs humains légitimes lors des pics d'affluence.

Comment atténuer le problème

Si votre site web n'utilise pas intentionnellement de fichier meta.json (par exemple pour une PWA ou un framework JS spécifique), il n'y a aucun intérêt à laisser ces requêtes atteindre votre serveur.

La manière la plus efficace de gérer cela est d'intercepter les requêtes à la "périphérie" (sur le edge), avant même qu'elles n'atteignent votre hébergeur. Nous recommandons de mettre en place une règle qui renvoie un code de statut 404 propre, avec un corps de réponse vide. Cela informera au moins le robot de Facebook que le fichier n'existe pas, tout en préservant les ressources de votre serveur.

Nous avons créé une recette prête à l'emploi pour les utilisateurs de redirection.io afin de résoudre ce problème en un clic 👉 Bloquer les requêtes meta.json