Outils pour utilisateurs

Outils du site


4.7_web_parsing_tarif_du_lendemain

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
4.7_web_parsing_tarif_du_lendemain [2012/02/03 17:45]
remyfr créée
4.7_web_parsing_tarif_du_lendemain [2020/08/20 20:30] (Version actuelle)
Ligne 10: Ligne 10:
  
 http://bleuciel.edf.com/abonnement-et-contrat/les-prix/les-prix-de-l-electricite/option-tempo/la-couleur-du-jour-2585.html&coe_i_id=2585 http://bleuciel.edf.com/abonnement-et-contrat/les-prix/les-prix-de-l-electricite/option-tempo/la-couleur-du-jour-2585.html&coe_i_id=2585
 +
 +
 +http://ejp.es-energies.fr
 +
  
  
Ligne 20: Ligne 24:
 **''webparse''** **''webparse''**
  
-**''webpage=http://bleuciel.edf.com/abonnement-et-contrat/les-prix/les-prix-de-l-electricite/option-tempo/la-couleur-du-jour-2585.html&coe_i_id=2585''**+**''webpage=http://particuliers.edf.com/abonnement-et-contrat/les-prix/les-prix-de-l-electricite/option-tempo/la-couleur-du-jour-2585.html&coe_i_id=2585''**
  
 **''search=<h4>Demain''** **''search=<h4>Demain''**
Ligne 29: Ligne 33:
  
 **''end=</span>''** **''end=</span>''**
 +
 +**''filter=Jour non EJP;Jour EJP''**
  
 **''Blanc=1''** **''Blanc=1''**
Ligne 38: Ligne 44:
 **''Non Déterminé=-1''** **''Non Déterminé=-1''**
  
 +\\
  
 +\\
  
 **webparse** est un mot clé qui permet à LogisDom de savoir qu'il devra faire du web parsing avec cette formule. **webparse** est un mot clé qui permet à LogisDom de savoir qu'il devra faire du web parsing avec cette formule.
Ligne 48: Ligne 56:
 **end=** identifie la chaine de caractère qui délimite la fin du texte à trouver dans le site web, une seule occurrence possible. **end=** identifie la chaine de caractère qui délimite la fin du texte à trouver dans le site web, une seule occurrence possible.
  
 +**filter=** est facultatif, certains site web modifient leur structure html en fonction de leur contenu ce qui rends le resultat du parsing inutilisable car il garde des inclusions de code html. 
  
 +**filter=** permet de définir une liste de résultat attendus, par exemple le tarif du lendemain est **Jour non EFP** ou  **Jour EJP**, on defini **filter=Jour non EJP;Jour non EJP** , le séparateur est le point virgule
  
 +LogisDom compare le résultat à la liste fournie, si un élément de la liste est contenu dans le résultat (qui pourrait contenir encore des morceau de code html) seul l'élément de la liste correspondant sera pris comme résultat. Si aucun élément de la liste ne correspond, le résultat original sera pris en compte.
 +
 +\\
  
 Imaginons par exemple une site web qui nous donne la météo sous forme de texte avec la phrase suivante : Imaginons par exemple une site web qui nous donne la météo sous forme de texte avec la phrase suivante :
  
-aujourd'hui le temps est : Beau, et demain il est : Pluvieux, blablablabla+//aujourd'hui le temps est : Beau, et demain il est : Pluvieux, blablablabla//
  
 le site est mise à jour avec les combinaison suivantes pour le temps : Beau, Pluvieux, Ensoleillé, Orageux, Nuageux. le site est mise à jour avec les combinaison suivantes pour le temps : Beau, Pluvieux, Ensoleillé, Orageux, Nuageux.
  
-On pourrait alors avoir un contenu comme cela :+On pourrait alors avoir //aujourd'hui le temps est : Ensoleillé, et demain il est : Nuageux, blablablabla// 
 + 
 +Pour récupérer le temps d’aujourd’hui, il faut donc définir les délimiteur comme  cela : 
 + 
 +search=**temps est :** 
 +  
 +end=**, et demain** 
 + 
 +Le résultat du parsing sera tout le texte contenu entre ces deux délimiteurs, donc Ensoleillé dans l'exemple choisi. 
 + 
 + 
 +Pour récupérer le temps de demain, il faut donc définir les délimiteur comme  cela : 
 + 
 +search=**demain il est :**  
 +  
 +end=**, blablablabla** 
 + 
 +\\ 
 + 
 +Pour finir la séquence de parsing, il faut définir une simple liste de valeurs numériques correspondantes aux textes possibles, chaque valeur doit être séparée de sa correspondance par le signe **=** 
 + 
 + 
 +Beau=1 
 + 
 +Pluvieux=3
  
-aujourd'hui le temps est : Ensoleillé, et demain il est : Nuageux, blablablabla+Ensoleillé=8
  
-Il faut donc définir +Orageux=4
  
-search=temps est :  +Nuageux=0
-end=, et demain+
  
-Le résultat du parsing sera tout le texte contenu entre ces deux délimiteurs, donc Ensoleillé 
  
 +Si vous souhaitez avoir une valeur sous forme texte, il faudra faire la correspondance inverse dans la liste des valeur texte disponible dans la palette.
 +\\
 +\\
  
 +Dans cette formule de webpasre, ATTENTION à bien respecter l'ordre suivant,
  
 +  - **''webparse''**
 +  - **''webpage=''**
 +  - **''search=       ''**
 +  - **''search=       ''**
 +  - **''search=       ''**
 +  - **''end=   ''**
 +  - **''filter=   ''**
 +  - **''Liste correspondance Texte=Valeur''**
  
 +Vous pouvez mettre autant de search= que vous voulez. LogisDom va successivement les exécuter l'un après l'autre, il faut que le dernier pointe vers le début du texte à extraire
  
  
-Une fois la fin déterminé, toutes les occurrences suivante servirons à attribuer une valeur numérique au correspondances de textes possibles. 
  
  
4.7_web_parsing_tarif_du_lendemain.1328262319.txt.gz · Dernière modification: 2020/08/20 20:30 (modification externe)