Bstrz afbanner btcoffer 728x90

ScrapeBox

Publié le 09 mars 2012 par admin

Avant de commencer cet article, petit rappel. Qu’est-ce que le scraping ?
» Le Web Scraping (aussi appelé Harvesting) est une technique informatique automatisée pour récupérer du contenu ». (définition provenant de Wikipedia et un peu modifiée par mes soins)

La technique de scraping la plus employée pour le Black Hat Seo est bien entendu celle du scraping de SERPs (URLs de résultats de requètes de moteurs de recherche) permettant de récupérer des milliers/millions d’URLs, pour ensuite les réutiliser avec des scripts.
Exemple : si demain j’ai un script pour envoyer des commentaires sur les sites utilisant la plateforme WordPress et le plugin CommentLuv, je vais vouloir récupérer un maximum d’Urls où se trouvent le formulaire et le plug-in pour envoyer mes commentaires. Bref, une technique des plus connues, notamment avec le logiciel ScrapeBox, ce dernier étant sûrement le plus répandu.

I. Passons aux choses sérieuses

ScrapeBox est donc l’un des softs les plus connus pour scraper, il permet clairement en quelques minutes de configurer son projet et de scraper des dizaines de milliers d’url.
Cependant, contrairement à ce qu’on pourrait penser, ScrapeBox n’est pas le logiciel le plus puissant en terme de scraping d’Urls, et tous ne se valent pas. On pourrait comparer Scrapebox à la Wii du scraping : sympa, familial, pas cher, rapide, etc. Mais pas ultra-puissante / ultra hi-tech.

Selon moi, l’un des logiciels les plus puissants en terme de scraping est Hrefer : le scraper fourni avec Xrumer (que nous n’avons plus besoin de présenter je pense).

Alors, pourquoi tout le monde utilise Scrapebox ? Surement parce que :
– il n’est pas cher
– il est simple et rapide d’utilisation
– il est fourni avec un lot d’outils impressionnant permettant de gérer ses listes d’urls dans tous les sens
Le « couteau suisse », tel qu’on l’appelle.

Cependant, Hrefer permet :
– de largement dépasser les 200 connexions simultanées pour scraper
– d’ajouter de nouveaux moteurs de recherche (système de regexp, etc)
– de générer des listes combinées de mots clefs, permettant ainsi de faire des recherches sur plus d’un million de keywords très facilement (sous scrapebox ce n’est pas prévu pour)
– de filtrer seulement les bonnes urls fraichement scrapées via un filtre « inurl » (sieve filter)

Un petit schéma explicatif ne fait jamais de mal :

Scraping : différences entre ScrapeBox et Hrefer

En termes techniques, la puissance de Hrefer provient de son utilisation simple et efficace de fichiers au format TXT pour les mots-clefs (nommés Words dans Hrefer), les footprints (nommés Additive Words), les filtres ainsi que pour les résultats (LinksList), contrairement à ScrapeBox qui « charge » les listes TXT directement dans le logiciel, sachant que ScrapeBox est du coup limité à un chargement de 1 million de lignes. Tout comme Xrumer, Hrefer « parcourt » les fichiers TXT, permettant ainsi de s’attaquer à des listes sans limite. De plus, l’utilisation par Hrefer de « X footprints * X mots-clefs » permet par combinaison de générer facilement des listes de requêtes beaucoup plus importantes que ScrapeBox, qui se cantonne à un footprint et X mots-clefs.

Quelques précisions :
– Le sieve-filter de Hrefer permet de vérifier lorsqu’une url est scrapée si plusieurs mots sont contenus dans l’Url elle-même. Par exemple, si j’ajoute en sieve-filter « wp-signup » et « register », je suis certain de récupérer dans ma liste de résultats des urls du type : http://www.wordpress.com/register/, http://www.edublogs.org/wp-signup.php, etc. (petit clin d’oeil à cette bonne vieille requête qui ne sert plus trop à grand chose de nos jours hélas ;) )
ScrapeBox limite au niveau logiciel le chargement de plus de 1 million de lignes (keywords, urls, etc). Par contre, on peut récupérer le fichier de résultats scrappés dépassant les 1 millions de résultats dans le répertoire « Harvester_Sessions ».

II. Le million, le million !

Bon, je vois déjà la moitié de la petite foule se dire : « mais je n’ai jamais eu besoin de plus d’un million de résultats… » Il est vrai que pour le scraping « de base », le million de résultat est une limite suffisante.
Cependant, le jour où je vous demanderai d’inclure dans une base de données toutes les Urls de profils Google Plus histoire de monter un super méga profil de la mort qui tue avec XXXX milliers de followers (je follow Danielle, elle me trouve beau car j’ai un hélicoptère Black Hat, elle me follow), le million devra être dépassé. Bilan, je chargerai une sacré liste de prénoms / noms avec les footprints Google plus, et bim, j’enverrai la sauce, je me retrouverai avec des centaines de millions d’urls de profils, que je pourrai utiliser pour vendre mon Ebook que je n’ai toujours pas écrit. Bref, le million c’est bien, parfois, plus c’est mieux. (PS : cet exemple est pure fiction et n’est pas à reproduire chez soi, car dangereux)

Idem, si demain j’attaque la jolie niche Poker en ligne, cela pourra être intéressant de récupérer des millions de Backlinks de milliers de concurrents, de balancer le tout dans un analyseur de plateforme, et de poser mon lien sur les plateformes Web 2.0.

Bon j’arrête avec les exemples ;) , mais vous imaginez donc bien que scraper plus d’un million de résultats peut-être extrêmement important quand on souhaite passer la deuxième vitesse.

III. ScrapeBox et Hrefer, la combinaison

ScrapeBox n’est cependant pas à jeter à la poubelle, au contraire. Je l’utilise au quotidien, ne serait-ce que pour toutes ses fonctions de gestion de liste d’urls (check links, remove duplicate, link extractor, outbound linkchecker, et j’en passe). Idem, son utilisation très rapide permet de lancer des petites phases de scraping en un clin d’oeil.

Toutefois, pour les projets de scraping de grande envergure, où je souhaite obtenir un maximum de résultats probants, j’utiliserai Hrefer, qui est une sorte de sniper/sulfateuse russe (avec mode d’emploi russe pour le coup), et là dessus, on ne peut que prôner l’efficacité des logiciels Botmaster.

IV. Ressources

  • ScrapeBox coûte la modique somme de 57$, si vous ne le possédez pas encore, je ne sais pas ce que vous faites sur ce blog ;) . Voici l’adresse pour l’acheter : http://www.scrapebox.com/bhw.
  • Hrefer est fourni avec Xrumer, et vous vous débrouillerez pour l’acheter si vous le souhaitez (qui en soi est un peu un casse tête quand on ne connait pas).
  • Il existe un logiciel de Scraping gratuit pour ceux qui souhaitent débuter : http://sickmarketing.com/beta/scraper.exe (Guide d’utilisation)
  • Il existe de nombreuses manières permettant de créer des scrapers de manière plus spécifiques (contenus, images, lapins crétins, etc), on pourra penser à Ubot, ZP, etc. Ou tout simplement à un script PHP cURL multithread utilisant des proxys, via Xpath (coucou Beunwa) ou les expressions régulières.

Comme je disais plus haut, le scraping est une compétence à part, et même si elle est accessible facilement au début, la maitriser totalement demandera beaucoup de temps et d’ingéniosité.

 

Source de l’article : http://www.backlinker.fr

Ecrire un commentaire

Vous devez être connecté pour publier un commentaire.

Recommandations






Partenaire



Régie publicitaire Pubdirecte
Votre site en popunder ici