Scraping
Écrit par B. Bathelot, modifié le 02/03/2020Glossaires : Environnement digital SEO black hat Référencement naturel / SEO Face obscure webmarketing
Le terme de web scraping désigne sur un plan général une technique d'extraction automatique de contenus qui sont le plus souvent structurés, sur un ou plusieurs sites web effectuée par un tiers à l'aide programmes, bots, ou scripts spécifiques.
Les pratiques de scraping existent depuis longtemps dans le domaine d'Internet, mais le terme a connu un regain d'usage dans le cadre du développement des techniques dites de growth hacking. Les techniques de scraping peuvent être utilisées pour alimenter des outils de veille et d'analyse (veille tarifaire e-commerce, suivi de positionnement moteur, relevé d'annonces AdWords, extraction de données sur les avis clients, etc.) ou pour constituer des fichiers dédiés à la prospection comme souvent dans le cadre du growth hacking. Des fichiers de prospection B2B "sauvage" peuvent par exemple être créés en "scrapant" LinkedIn, Les Pages Jaunes ou le site d'un organisateur salon qui présente tout les exposants.
Selon la forme du scraping et l'usage des données scrapées, les techniques de scraping sont souvent illégales ou tout au moins non éthiques. En effet, elles peuvent constituer une atteinte au droit de propriété intellectuelle liés aux bases de données et la collecte et l'usage des données personnelles collectées ne sont généralement pas conformes aux dispositions légales.
En tant que tel, le scraping est donc différent de l'usage autorisée d'une API car dans ce dernier cas, le site source des données contrôle et éventuellement facture le rapatriement des données. Les éditeurs peuvent, en partie seulement, se protéger du scraping par des techniques de détection spécifiques des bots ou scrapers.
Dans le domaine du marketing digital, il est possible de distinguer différentes formes de scraping :
- le scraping LinkedIn
- le scraping effectué sur Le Bon Coin
- le scraping d'autres sites annuaires / bases de données (Allociné, Societe.com, etc.)
- le scraping de contenu utilisé comme une technique de référencement black-hat ou à des fins de monétisation.
- le Google scraping
- l'URL Scraping
- le scraping / crawling de sites web B2B
- Le scraping d'adresses email
Un exemple de démonstration de l'usage d'un logiciel de scraping des Pages Jaunes :
Des compétences en scraping (ici avec 2p) et growth hacking évoquées dans le recrutement d'un responsable marketing salons professionnels :
Un exemple des pratiques de scraping évoquées sur un forum dédié au growth hacking :
Un exemple d'évocation d'une démarche de scraping destinée a établir une cartographie de points de ventes :