Extraction de données sur un site internet
I analyse du contexte Avant d'établir une méthodologie d'extraction de données, il faut s'intéresser dans un premier temps à la présentation des données sur le site. A partir d'une liste de films, notre application va interroger le moteur de recherche du site et collecter les informations. Commençons par faire un tour sur le site de Allo Ciné. La barre de navigation propose une entrée "Vidéos". Cliquez dessus. Elle donne accès au moteur de recherche du site. Saisissez "jackie brown". Voici la page de résultats : La page nous présente une liste de résultats articulée autour des rubriques :
Dans notre contexte, la rubrique qui va retenir notre attention est "réponse dans les titres de films déjà sortis". En effet, 1) nous avons soumis un titre de film, et 2) il s'agit d'un film de notre vidéothèque, donc déjà sorti dans le commerce (on ne pirate pas !) Notons au passage l'url de la page : http://www.allocine.fr/recherche/default.html?motcle=jackie+brown Elle servira pour l'extraction de données. Cliquez sur le lien : Nous arrivons sur la fiche du film : Identifions les informations pertinentes à récolter :
Notons au passage qu'au cours de notre navigation nous avons été sollicités par des pages de publicité obligatoire. Ceci n'aura aucune incidence sur la solution d'extraction de données présentée plus tard.
|