Outils pour utilisateurs

Outils du site


4.7_web_parsing_tarif_du_lendemain

Ceci est une ancienne révision du document !


4.7 Web Parsing (Tarif du lendemain



Une fonction de parsing sur site web est disponible, par exemple pour récupérer le tarif du lendemain disponible sur le site web de EDF.

http://bleuciel.edf.com/abonnement-et-contrat/les-prix/les-prix-de-l-electricite/option-tempo/la-couleur-du-jour-2585.html&coe_i_id=2585

Cette fonction nécessite une syntaxe et un ordre de la syntaxe bien précis. Elle a l'avantage de pouvoir être modifiée très facilement en fonction de l'évolution du contenu du site web en cas de mise à jour.

Il faut donc créer un capteur virtuel et mettre en guise de formule la série suivante :

webparse

webpage=http://bleuciel.edf.com/abonnement-et-contrat/les-prix/les-prix-de-l-electricite/option-tempo/la-couleur-du-jour-2585.html&coe_i_id=2585

search=<h4>Demain

search=<span class=“hours right”>22h</span>

search=<span class=“period”>

end=</span>

Blanc=1

Bleu=2

Rouge=3

Non Déterminé=-1

webparse est un mot clé qui permet à LogisDom de savoir qu'il devra faire du web parsing avec cette formule.

webpage= doit précéder l'adresse du site web à analyser.

search= identifie la chaine de caractère qui identifie le début du texte à trouver dans le site web, il peut y avoir plusieurs occurrences successives pour outrepasser les doublons possible

end= identifie la chaine de caractère qui délimite la fin du texte à trouver dans le site web, une seule occurrence possible.

Imaginons par exemple une site web qui nous donne la météo sous forme de texte avec la phrase suivante :

aujourd'hui le temps est : Beau, et demain il est : Pluvieux, blablablabla

le site est mise à jour avec les combinaison suivantes pour le temps : Beau, Pluvieux, Ensoleillé, Orageux, Nuageux.

On pourrait alors avoir un contenu comme cela :

aujourd'hui le temps est : Ensoleillé, et demain il est : Nuageux, blablablabla

Il faut donc définir

search=temps est : end=, et demain

Le résultat du parsing sera tout le texte contenu entre ces deux délimiteurs, donc Ensoleillé

Une fois la fin déterminé, toutes les occurrences suivante servirons à attribuer une valeur numérique au correspondances de textes possibles.

4.7_web_parsing_tarif_du_lendemain.1328262319.txt.gz · Dernière modification: 2020/08/20 20:30 (modification externe)