Scraping du Web avec BeautifulSoup

05 juillet 2016

Installation de BeautifulSoup

J'ai déjà expliqué ailleurs comment installer BeautifulSoup. Vous trouverez toutes les informations à cette adresse.

Pour résumer, installez pip (inclus par défaut dans Python après la version 2.7.9), installez virtualenv (pour éviter de vous mélanger les pinceaux avec différents environnements sur votre machine, installez beautifulsoup avec pip après avoir activé votre environnement virtuel et installez le parser lxml pour qu'il soit celui par défaut utilisé par BeautifulSoup.

Je fais tous mes tests avec deux sites : www.les-bougies.com qui est un moteur de recherche de bougies parfumées développé par moi. Ce moteur de recherche est alimenté grâce à des scripts Python BeautifulSoup et www.scandles.fr un site marchand de bougies parfumées qui est scanné par mes robots pour alimenter le site www.les-bougies.com

Si vous avez bien suivi ce qui est décrit dans mon post, alors BeautifulSoup (BS4) est correctement installé chez vous et vous êtes capable de faire votre 1er test.

 

 

 

Posté par scrapingduWeb à 10:25 - Commentaires [0] - Permalien [#]
Tags : , , , ,


01 juillet 2016

Web Scraping with Python

Dans mon blog, il sera question de Web scraping avec Python et BeautifulSoup.

Pour illustrer mon propos, je m'appuierai sur un moteur de recherche que j'ai développé : www.les-bougies.com 

Ce moteur scanne une liste de sites marchands spécialisés dans les bougies parfumées et présente à l'utilisateur les produits disponibles. Un robot mett à jour périodiquement les données.

Par exemple, le site Scandles, qui vend diverses marques de bougies parfumées, est scanné chaque jour et ses produits sont listés sur  www.les-bougies.com

Je ne m'étendrai pas beaucoup sur le développement du site, qui est relativement classique puisque bâti autour d'un CMS Wordpress mais j'expliquerai comment fonctionne mon robot. 

Le 1er article sera une présentation de BeautifulSoup

Posté par scrapingduWeb à 14:08 - Commentaires [0] - Permalien [#]
Tags : ,