IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Extraction de données sur un site internet

I analyse du contexte

Avant d'établir une méthodologie d'extraction de données, il faut s'intéresser dans un premier temps à la présentation des données sur le site. A partir d'une liste de films, notre application va interroger le moteur de recherche du site et collecter les informations.

Commençons par faire un tour sur le site de Allo Ciné. La barre de navigation propose une entrée "Vidéos". Cliquez dessus. Elle donne accès au moteur de recherche du site.

Saisissez "jackie brown".

Voici la page de résultats :

La page nous présente une liste de résultats articulée autour des rubriques :
  • 1 réponse dans les avant-premières (de ou avec)
  • 1 réponse dans les titres de films déjà sortis
  • 309 réponses dans les films déjà sortis (de ou avec)
  • 20 réponses dans les prochaines sorties de films (de ou avec)
  • 151 réponses en vidéo avec AlloCiné Vision

Dans notre contexte, la rubrique qui va retenir notre attention est "réponse dans les titres de films déjà sortis". En effet, 1) nous avons soumis un titre de film, et 2) il s'agit d'un film de notre vidéothèque, donc déjà sorti dans le commerce (on ne pirate pas !)
Notons au passage l'url de la page :
http://www.allocine.fr/recherche/default.html?motcle=jackie+brown
Elle servira pour l'extraction de données.

Cliquez sur le lien :


Nous arrivons sur la fiche du film :


Identifions les informations pertinentes à récolter :
  • le titre
  • le pays d'origine
  • la date de sortie dans le pays d'origine
  • le genre (liste)
  • la durée
  • les acteurs (liste)
  • le réalisateur
  • le synopsis

Notons au passage qu'au cours de notre navigation nous avons été sollicités par des pages de publicité obligatoire. Ceci n'aura aucune incidence sur la solution d'extraction de données présentée plus tard.