Aller au contenu

Comment tester si une URL est bloquée au crawl dans Google Sheets ?

Antoine Brisset
Antoine Brisset
Temps de lecture : 2 min
Comment tester si une URL est bloquée au crawl dans Google Sheets ?
Photo by Morgane Perraud / Unsplash

Table des matières

Google Sheets est un outil que j'utilise tous les jours pour réaliser tout un tas d'opérations : analyse de données chiffrées, scraping de contenu, comptage de caractères, connexion à des API, etc.

Aujourd'hui, voyons ensemble comment vérifier, avec Google Sheets, si une URL est bloquée par le robots.txt.

Pour faire cela, on va utiliser une technique de sioux.

1ère étape : trouver un outil en ligne de test de robots.txt

Des outils de ce type, il en existe plein.

Celui que j'ai retenu, c'est celui-ci : https://en.ryte.com/free-tools/robots-txt/.

Robots.txt Test Tool

Pourquoi ? Car les données de son formulaire sont envoyées avec la méthode GET, donc visibles dans l'URL.

En soumettant le formulaire, on arrive en effet sur la page suivante : https://en.ryte.com/free-tools/robots-txt/?refresh=1&url=https%3A%2F%2Fwww.seomemento.com&useragent=Googlebot&submit=Evaluate.

2 paramètres d'URL sont ici particulièrement intéressants :

  • url : l'URL à tester
  • useragent : le robot d'exploration auquel les règles doivent s'appliquer

On va donc pouvoir manipuler ces paramètres pour tester différentes URLs, selon différentes configurations d'user-agent, directement dans Google Sheets.

2ème étape : automatiser la récupération du résultat dans Google Sheets

Voici comment procéder dans ta feuille Google Sheets :

  1. Entre l'URL à tester dans une colonne, par exemple en A1
  2. Entre le user-agent de ton choix dans une deuxième colonne, par exemple en B1. Les différentes valeurs acceptées par l'outil de Ryte sont :
  • Googlebot
  • Googlebot-Image
  • MSNBot
  • Slurp
  • Lycos
  • Seekbot
  • Sistrix
  • SearchmetricsBot
  • BacklinkCrawler
  • SEOkicks
  • Xovi
  1. Entre la formule suivante dans une troisième colonne, par exemple en C1
    =IMPORTXML("https://en.ryte.com/free-tools/robots-txt/?refresh=1&url="&ENCODEURL(A1)&"&useragent="&B1&"&submit=Evaluate";"//p[@class='white_block']/strong[1]")

Cette formule utilise la fonction IMPORTXML de Google Sheets.

Le premier paramètre est l'URL de la page d'où extraire le contenu. Pour "dynamiser" cette URL, on va simplement concaténer l'URL (en l'encodant au préalable via la fonction ENCODEURL) et la chaîne de caractères correspondant au user-agent choisi.

Le deuxième paramètre est le xpath suivant :

//p[@class='white_block']/strong[1]

Dans la page, cela correspond à la règle trouvée pour l'URL testée (ici "Allow").

Résultat du test

Et voilà, il n'y a plus qu'à laisser la magie opérer.

Automatiser le check dans Google Sheets
Google Sheets

Antoine Brisset Twitter

Consultant SEO depuis 2010. Je traque les clics inutiles et j'automatise les tâches répétitives pour gagner du temps dans mon quotidien de travailleur du web.


Articles Similaires

Membres Public

Filtrer facilement des valeurs vides avec Google Sheets

📲Je propose désormais des sessions de coaching SEO. Si vous avez besoin d'un accompagnement personnalisé et sur mesure, en SEO ou en édition de sites, rendez-vous ici ! Aujourd'hui, petite astuce pour éviter de devoir utiliser les fonctions FLATTEN + FILTER quand vous devez : 1. convertir une plage

Filtrer facilement des valeurs vides avec Google Sheets
Membres Public

Comment analyser des paramètres d'URL avec Google Sheets ?

L'édition du jour est directement inspirée de l'article paru il y a a quelques jours sur le blog Yapasdequoi d'Aymeric Bouillat. Dans son (très bon) article, Aymeric explique comment faire l'agrégation du nombre de hits Googlebot sur les paramètres d'URL

Comment analyser des paramètres d'URL avec Google Sheets ?
Membres Public

RECHERCHEV dans Google Sheets : comment retourner plusieurs colonnes à la fois ?

Il y a quelques jours, Mickaël Zerrougui a partagé un petit tuto sympa sur la RECHERCHEV en SEO. Si tu l'as loupé, je te le remets ici ⬇️ 🏆 La RechercheV en SEO 🏆 Y'a des SEO qui savent toujours pas utiliser la rechercheV ?😱 Vous en avez marre des

RECHERCHEV dans Google Sheets : comment retourner plusieurs colonnes à la fois ?