Keep Calm It's Just Scrap

Toi aussi, scrape avec Excel !

Préambule : ceci est le premier article d’une série consacrée à Excel pour le SEO.  Alors Stay Tuned !

Nous avons tous eu besoin un jour ou l’autre de scraper les résultats de Google, que ce soit pour un audit, un suivi de positionnement ou tout un tas d’autres choses. Il existe aujourd’hui sur le marché de très nombreuses solutions pour récupérer les résultats des pages de recherche. Je pense en premier lieu à l’excellent RDDZ Scraper, que j’utilise très souvent, mais il y en a d’autres. Le souci (mon souci) c’est que l’analyse s’effectue systématiquement sur Excel. Il faut donc exporter le résultat en CSV, l’importer dans Excel, le formater, bref …

Je vous propose en bas de cet article un document Excel que je mets à disposition gratuitement et qui va vous permettre de scraper directement dans Excel. Mais ne sautez pas les étapes et lisez bien les paragraphes ci-dessous 😉

Edit 24/09/14 – 10:15 : la version 1.5 contenait un bug, pensez à télécharger la dernière version (1.6).

J’ai besoin de quoi pour scraper directement dans Excel ?

Il vous faut bien sûr une version d’Excel pas trop ancienne si possible. Je n’ai pas testé, mais disons que 2003 est le strict minimum. Ensuite, il y a un outil incontournable en SEO lorsque l’on travaille sur Excel, c’est le plugin SEO Tools for Excel, développé par le Suédois Niels Bosma. Il va donc falloir commencer par installer ce plugin. Pour ce faire, rendez-vous sur cette page http://nielsbosma.se/projects/seotools/download/ et suivez les instructions. Attention, vérifiez bien votre version de Microsoft Excel avant de télécharger le plugin (32-bit ou 64-bit). Inutile de préciser que cette extension est entièrement gratuite, alors même si vous galérez un petit quart d’heure pour l’installer, ne vous en faites pas, ce sera vite rentabilisé.

Si vous disposez d’un compte chez Majestic, alors c’est encore mieux. Vous pourrez obtenir les données de Majestic SEO (notamment les Flow Metrics, le nombre de liens entrants et de referers) directement dans Excel. Vous trouverez comment faire sur cette page : Accéder à Majestic SEO dans Excel. Et si vous n’avez pas de compte Majestic SEO, je vous recommande vivement l’offre SILVER à 39,99€ qui sera suffisante.

Ce que vous allez pouvoir faire

Vous allez pouvoir obtenir la liste des 100 premières URLs et noms de domaines dans les SERPs pour une requête donnée, récupérer le title, le TBPR, l’Alexa Traffic Rank, le nombre de domaines référents, le nombre de backlinks, le nombre d’URLs indexées et les Flow Metrics.

Google Scraper
Aperçu du résultat pour un scrap complet des deux premières pages des SERPs sur la requête « Fleuriste Paimpol »

Pour ce faire c’est simple, vous allez :

  1. entrer votre requête (un mot-clé, un footprint)
  2. sélectionner un nombre de pages à scraper (entre 1 et 10)
  3. choisir si vous souhaitez récupérer le title
  4. déterminer si vous souhaitez analyser l’URL ou le domaine racine
  5. choisir si vous souhaitez afficher les données Majestic SEO (nécessite un compte payant Majestic SEO)
  6. choisir si vous souhaitez obtenir le TBPR et l’Alexa Traffic Rank
  7. sélectionner une localité

La prise en compte de la localisation

C’est le petit plus du document. Vous allez pouvoir directement choisir votre localisation et expliquer à votre client qu’il n’est peut-être que 84e sur « fleuriste Paimpol » au niveau national comme lui l’indique son outil de suivi de positionnement, mais qu’il apparaît bien en 2e position lorsque l’internaute est situé à Paimpol, Lannion ou Guingamp (#BreizhPower). Merci à Kévin pour son article Géolocaliser ses SERPs à l’échelle ultra-locale dont je me suis beaucoup servi pour ajouter cette fonctionnalité.

NB : si vous ne souhaitez pas utiliser cette fonctionnalité, remontez en haut de la liste déroulante et laissez le champ vide.

Téléchargez le document

Je vous l’avais promis. Voici le document que j’ai appelé Google Scraper (version 2.1).

Edit 24/09/14 – 10:15 : la version 1.5 contenait un bug, pensez à télécharger la dernière version.

Edit 12/05/16 – 10:00 : la version 2.0 affiche désormais la description présente dans les SERPs.

Edit 06/06/18 – 15:20 : la version 2.1 contient la nouvelle version du connecteur Majestic et ne contient plus les données PR et Alexa.

Quelques consignes au passage :

  • Soyez patients, si vous cochez toutes les cases et que vous souhaitez récupérer 10 pages de résultats, ça peut prendre quelques minutes.
  • Récupérer les 100 premiers résultats n’est pas toujours utile. Si vous pouvez vous contenter des 20 premiers c’est mieux.
  • Un conseil, dans Excel, choisissez de lancer les calculs manuellement (Onglet Formules | Section Options de calcul | Manuel). Et appuyer sur F9 lorsque vous voulez lancer le scrap.
  • Ici on scrape sans proxy, donc l’outil n’est pas forcément adapté à une utilisation industrielle, cela dit, vous pouvez bosser sur l’audit concurrentiel de votre client les yeux fermés.
  • Pour les initiés, vous pouvez modifier le Xpath en colonne C (attention, il s’agit d’une formule matricielle)
  • Edit 24/09/14 – 10:15 : les lignes blanches qui apparaissent parfois correspondent aux résultats Google Image que j’ai pas (encore) réussi à exclure.
  • Edit 25/01/17 – 09:45 : si cela ne fonctionne pas, rendez-vous dans l’onglet Settings de SEO Tools, puis cliquez sur Global HTTP Settings. Dans le premier tableau, renseignez le User-agent suivant : Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 puis cochez Save configuration en bas à droite et sauvegardez.

    http settings seotoolsforexcel

La suite du dossier Excel pour le SEO

13 réflexions au sujet de « Toi aussi, scrape avec Excel ! »

  1. Good job !
    Perso, j’utilise surtout le SEO tool for Excel pour évaluer des noms de domaines. Le reste est trop contraignant pour moi.

    Sinon, un petit rectificatif, la quasi totalité des outils de positionnement pro permettent de choisir la localisation. 😉

  2. Belle démonstration. La plupart des SEO n’exploitent pas suffisamment les capacités d’excel ..

  3. Super article Cédric, et surtout liste très alléchante à venir.

    Je crois que depuis qu’il n’est plus possible d’utiliser XLS en tant que simulateur de vol, c’est la meilleure nouvelle. J’exagère à peine, bien evidemment..

    Je vais essayer ça, en attendant avec impatience l’article Suivez vos positions gratuitement avec Excel.

    PS : pour le moment, tu tiens tes promesses, continue continue !

  4. L’outil tant attendu, by le ténor des formules Excel ! Le teasing lors de l’apéro SEO était déjà prometteur 😉

    En tout cas, c’est franchement très sympa de le proposer au téléchargement sans rien demander. Bravo, vraiment 😉

    Impatient de lire ce que tu vas nous proposer par la suite.

  5. @Magicyoyo, c’est vrai la plupart des outils de positionnement proposent cette option de localisation. Mais ce serait réduire le scrap au suivi des positions 😉 Là on peut faire bien plus qu’un relevé de positions.

    @MESBAHI, eh bien on va les aider 😉

    @Régis, tu me mets encore la pression pour la suite des articles. Je vais essayer de ne pas te décevoir !

    @Sylvain, j’ai hésité entre téléchargement gratuit, privé ou avec un système Pay with a tweet, mais bon, si personne ne partageait rien sur le web, les blogs, les forums, j’en serai encore à inscrire mes sites dans des annuaires 😀

  6. Bonjour Cédric,

    Merci pour cet article et ce document. Vraiment bien j’attends avec impatience la suite surtout que j’ai eu des échos de ce que tu as annoncé lors de l’apéro SEO et ça donne envie d’en savoir plus au plus vite…

  7. Merci pour cet article. J’ai suivis pas à pas mais à la fin j’ai une erreur.

    Lorsque je fais F9 pour lancer le scrap.

    XPathOnURL
    Erreur 503

    Quelqu’un a déjà eu cette erreur ?

  8. Hello Tim 😉

    tu es certain que ce n’est pas le site que tu scrapes qui affiche une 503 ? Tu as un exemple de requête à me donner pour que je puisse tester ?

  9. pour l’erreur 503, c’est souvent à cause des captchas, lorsqu’on fait trop de requetes et que google trouve qu’on a un comportement de robot.

  10. Un grand merci pour cette article et ce partage.

    Par hasard, quelqu’un connaitrait-il un plugin seo sous libreoffice permettant de l’adapter?

  11. @Jd, non à ma connaissance, rien sur Libre Office ou Open Office 🙁

  12. Bonjour Cédric, merci pour cette très bonnes astuce ! Je vais la tester dès que possible. A bientôt 🙂

Les commentaires sont fermés.