Aller au contenu

Comment tester si une URL est bloquée au crawl dans Google Sheets ?

Antoine Brisset
Antoine Brisset
Temps de lecture : 2 min
Comment tester si une URL est bloquée au crawl dans Google Sheets ?
Photo by Morgane Perraud / Unsplash

Table des matières

Google Sheets est un outil que j'utilise tous les jours pour réaliser tout un tas d'opérations : analyse de données chiffrées, scraping de contenu, comptage de caractères, connexion à des API, etc.

Aujourd'hui, voyons ensemble comment vérifier, avec Google Sheets, si une URL est bloquée par le robots.txt.

Pour faire cela, on va utiliser une technique de sioux.

1ère étape : trouver un outil en ligne de test de robots.txt

Des outils de ce type, il en existe plein.

Celui que j'ai retenu, c'est celui-ci : https://en.ryte.com/free-tools/robots-txt/.

Robots.txt Test Tool

Pourquoi ? Car les données de son formulaire sont envoyées avec la méthode GET, donc visibles dans l'URL.

En soumettant le formulaire, on arrive en effet sur la page suivante : https://en.ryte.com/free-tools/robots-txt/?refresh=1&url=https%3A%2F%2Fwww.seomemento.com&useragent=Googlebot&submit=Evaluate.

2 paramètres d'URL sont ici particulièrement intéressants :

  • url : l'URL à tester
  • useragent : le robot d'exploration auquel les règles doivent s'appliquer

On va donc pouvoir manipuler ces paramètres pour tester différentes URLs, selon différentes configurations d'user-agent, directement dans Google Sheets.

2ème étape : automatiser la récupération du résultat dans Google Sheets

Voici comment procéder dans ta feuille Google Sheets :

  1. Entre l'URL à tester dans une colonne, par exemple en A1
  2. Entre le user-agent de ton choix dans une deuxième colonne, par exemple en B1. Les différentes valeurs acceptées par l'outil de Ryte sont :
  • Googlebot
  • Googlebot-Image
  • MSNBot
  • Slurp
  • Lycos
  • Seekbot
  • Sistrix
  • SearchmetricsBot
  • BacklinkCrawler
  • SEOkicks
  • Xovi
  1. Entre la formule suivante dans une troisième colonne, par exemple en C1
    =IMPORTXML("https://en.ryte.com/free-tools/robots-txt/?refresh=1&url="&ENCODEURL(A1)&"&useragent="&B1&"&submit=Evaluate";"//p[@class='white_block']/strong[1]")

Cette formule utilise la fonction IMPORTXML de Google Sheets.

Le premier paramètre est l'URL de la page d'où extraire le contenu. Pour "dynamiser" cette URL, on va simplement concaténer l'URL (en l'encodant au préalable via la fonction ENCODEURL) et la chaîne de caractères correspondant au user-agent choisi.

Le deuxième paramètre est le xpath suivant :

//p[@class='white_block']/strong[1]

Dans la page, cela correspond à la règle trouvée pour l'URL testée (ici "Allow").

Résultat du test

Et voilà, il n'y a plus qu'à laisser la magie opérer.

Automatiser le check dans Google Sheets
Google Sheets

Antoine Brisset Twitter

Consultant SEO depuis 2010. Je traque les clics inutiles et automatise les tâches répétitives pour gagner du temps dans mon quotidien de travailleur du web.

Commentaires


Articles Similaires

Membres Public

Comment générer un slug d'URL avec Google Sheets ?

Aujourd'hui, je vais te montrer comment faire pour transformer un texte en slug d'URL. Si le terme de "slug" ne te parle pas, sache que c'est tout simplement la partie finale d'une URL. Dit autrement, c'est l'identifiant textuel d'une page d'un site. Généralement, en SEO, il est recommandé d'avoir un

Comment générer un slug d'URL avec Google Sheets ?
Membres Public

3 techniques pour ouvrir plusieurs URLs en même temps

Il y a quelques semaines, je t'ai partagé une technique pour ouvrir l'admin WordPress de plusieurs articles en même temps. Aujourd'hui, je vais aller un peu plus loin en te proposant 3 techniques pour ouvrir plusieurs URLs en un clic. Je ne sais pas pour toi, mais de mon côté

3 techniques pour ouvrir plusieurs URLs en même temps
Membres Public

Extraire la racine et le nom de domaine d'une URL avec Google Sheets (+TEMPLATE)

Aujourd'hui, je te partage un petit tuto pour récupérer la racine et le nom de domaine (ou sous-domaine) d'une URL dans Google Sheets. C'est toujours intéressant d'avoir ça sous le coude, notamment pour des analyses de backlinks, de domaines expirés, de SERPs, etc. Si tu veux avoir accès directement au

Extraire la racine et le nom de domaine d'une URL avec Google Sheets (+TEMPLATE)