Aller au contenu

Comment tester si une URL est bloquée au crawl dans Google Sheets ?

Antoine Brisset
Antoine Brisset
Temps de lecture : 2 min
Comment tester si une URL est bloquée au crawl dans Google Sheets ?
Photo by Morgane Perraud / Unsplash

Table des matières

Google Sheets est un outil que j'utilise tous les jours pour réaliser tout un tas d'opérations : analyse de données chiffrées, scraping de contenu, comptage de caractères, connexion à des API, etc.

Aujourd'hui, voyons ensemble comment vérifier, avec Google Sheets, si une URL est bloquée par le robots.txt.

Pour faire cela, on va utiliser une technique de sioux.

1ère étape : trouver un outil en ligne de test de robots.txt

Des outils de ce type, il en existe plein.

Celui que j'ai retenu, c'est celui-ci : https://en.ryte.com/free-tools/robots-txt/.

Robots.txt Test Tool

Pourquoi ? Car les données de son formulaire sont envoyées avec la méthode GET, donc visibles dans l'URL.

En soumettant le formulaire, on arrive en effet sur la page suivante : https://en.ryte.com/free-tools/robots-txt/?refresh=1&url=https%3A%2F%2Fwww.seomemento.com&useragent=Googlebot&submit=Evaluate.

2 paramètres d'URL sont ici particulièrement intéressants :

  • url : l'URL à tester
  • useragent : le robot d'exploration auquel les règles doivent s'appliquer

On va donc pouvoir manipuler ces paramètres pour tester différentes URLs, selon différentes configurations d'user-agent, directement dans Google Sheets.

2ème étape : automatiser la récupération du résultat dans Google Sheets

Voici comment procéder dans ta feuille Google Sheets :

  1. Entre l'URL à tester dans une colonne, par exemple en A1
  2. Entre le user-agent de ton choix dans une deuxième colonne, par exemple en B1. Les différentes valeurs acceptées par l'outil de Ryte sont :
  • Googlebot
  • Googlebot-Image
  • MSNBot
  • Slurp
  • Lycos
  • Seekbot
  • Sistrix
  • SearchmetricsBot
  • BacklinkCrawler
  • SEOkicks
  • Xovi
  1. Entre la formule suivante dans une troisième colonne, par exemple en C1
    =IMPORTXML("https://en.ryte.com/free-tools/robots-txt/?refresh=1&url="&ENCODEURL(A1)&"&useragent="&B1&"&submit=Evaluate";"//p[@class='white_block']/strong[1]")

Cette formule utilise la fonction IMPORTXML de Google Sheets.

Le premier paramètre est l'URL de la page d'où extraire le contenu. Pour "dynamiser" cette URL, on va simplement concaténer l'URL (en l'encodant au préalable via la fonction ENCODEURL) et la chaîne de caractères correspondant au user-agent choisi.

Le deuxième paramètre est le xpath suivant :

//p[@class='white_block']/strong[1]

Dans la page, cela correspond à la règle trouvée pour l'URL testée (ici "Allow").

Résultat du test

Et voilà, il n'y a plus qu'à laisser la magie opérer.

Automatiser le check dans Google Sheets
Google Sheets

Antoine Brisset Twitter

Consultant SEO depuis 2010. Je traque les clics inutiles et automatise les tâches répétitives pour gagner du temps dans mon quotidien de travailleur du web.

Commentaires


Articles Similaires

Membres Public

Comment tirer tout le potentiel des fonctions d'importation de Google Sheets ?

Il y a quelques semaines mois, j'ai fait un thread Twitter sur les fonctions d'importation de Google Sheets. Si tu es passé à côté, je te propose une petite séance de rattrapage, avec en bonus des informations complémentaires. Présentation Google propose 5 fonctions pour importer des données : * IMPORTXML : pour extraire

Comment tirer tout le potentiel des fonctions d'importation de Google Sheets ?
Membres Public

Comment supprimer le balisage HTML d'un texte avec Google Sheets ?

Imagine : tu viens de scraper des blocs entiers de code HTML et tu dois en extraire le contenu texte. Comment tu t'y prendrais pour supprimer automatiquement les balises et conserver uniquement le texte ? J'ai souvent été confronté à ce problème, alors je te montre comment faire dans Google Sheets. Étape

Comment supprimer le balisage HTML d'un texte avec Google Sheets ?
Membres Public

Comment partager facilement et rapidement un rapport Search Console ?

Toi aussi, parfois on te demande d'envoyer rapidement quelques chiffres Search Console pour compléter une présentation ou finaliser un reporting ? Plutôt que d'envoyer une capture d'écran un peu moche ou de te lancer dans la création d'un Data Studio Looker Studio, je vais te montrer comment créer un joli petit

Comment partager facilement et rapidement un rapport Search Console ?