Ci-dessous, les différences entre deux révisions de la page.
Prochaine révision | Révision précédente | ||
4.7_web_parsing_tarif_du_lendemain [2012/02/03 17:45] remyfr créée |
4.7_web_parsing_tarif_du_lendemain [2020/08/20 20:30] (Version actuelle) |
||
---|---|---|---|
Ligne 10: | Ligne 10: | ||
http:// | http:// | ||
+ | |||
+ | |||
+ | http:// | ||
+ | |||
Ligne 20: | Ligne 24: | ||
**'' | **'' | ||
- | **'' | + | **'' |
**'' | **'' | ||
Ligne 29: | Ligne 33: | ||
**'' | **'' | ||
+ | |||
+ | **'' | ||
**'' | **'' | ||
Ligne 38: | Ligne 44: | ||
**'' | **'' | ||
+ | \\ | ||
+ | \\ | ||
**webparse** est un mot clé qui permet à LogisDom de savoir qu'il devra faire du web parsing avec cette formule. | **webparse** est un mot clé qui permet à LogisDom de savoir qu'il devra faire du web parsing avec cette formule. | ||
Ligne 48: | Ligne 56: | ||
**end=** identifie la chaine de caractère qui délimite la fin du texte à trouver dans le site web, une seule occurrence possible. | **end=** identifie la chaine de caractère qui délimite la fin du texte à trouver dans le site web, une seule occurrence possible. | ||
+ | **filter=** est facultatif, certains site web modifient leur structure html en fonction de leur contenu ce qui rends le resultat du parsing inutilisable car il garde des inclusions de code html. | ||
+ | **filter=** permet de définir une liste de résultat attendus, par exemple le tarif du lendemain est **Jour non EFP** ou **Jour EJP**, on defini **filter=Jour non EJP;Jour non EJP** , le séparateur est le point virgule | ||
+ | LogisDom compare le résultat à la liste fournie, si un élément de la liste est contenu dans le résultat (qui pourrait contenir encore des morceau de code html) seul l' | ||
+ | |||
+ | \\ | ||
Imaginons par exemple une site web qui nous donne la météo sous forme de texte avec la phrase suivante : | Imaginons par exemple une site web qui nous donne la météo sous forme de texte avec la phrase suivante : | ||
- | aujourd' | + | //aujourd' |
le site est mise à jour avec les combinaison suivantes pour le temps : Beau, Pluvieux, Ensoleillé, | le site est mise à jour avec les combinaison suivantes pour le temps : Beau, Pluvieux, Ensoleillé, | ||
- | On pourrait alors avoir un contenu comme cela : | + | On pourrait alors avoir // |
+ | |||
+ | Pour récupérer le temps d’aujourd’hui, | ||
+ | |||
+ | search=**temps est :** | ||
+ | |||
+ | end=**, et demain** | ||
+ | |||
+ | Le résultat du parsing sera tout le texte contenu | ||
+ | |||
+ | |||
+ | Pour récupérer le temps de demain, il faut donc définir les délimiteur | ||
+ | |||
+ | search=**demain il est :** | ||
+ | |||
+ | end=**, blablablabla** | ||
+ | |||
+ | \\ | ||
+ | |||
+ | Pour finir la séquence de parsing, il faut définir une simple liste de valeurs numériques correspondantes aux textes possibles, chaque valeur doit être séparée de sa correspondance par le signe **=** | ||
+ | |||
+ | |||
+ | Beau=1 | ||
+ | |||
+ | Pluvieux=3 | ||
- | aujourd' | + | Ensoleillé=8 |
- | Il faut donc définir | + | Orageux=4 |
- | search=temps est : | + | Nuageux=0 |
- | end=, et demain | + | |
- | Le résultat du parsing sera tout le texte contenu entre ces deux délimiteurs, | ||
+ | Si vous souhaitez avoir une valeur sous forme texte, il faudra faire la correspondance inverse dans la liste des valeur texte disponible dans la palette. | ||
+ | \\ | ||
+ | \\ | ||
+ | Dans cette formule de webpasre, ATTENTION à bien respecter l' | ||
+ | - **'' | ||
+ | - **'' | ||
+ | - **'' | ||
+ | - **'' | ||
+ | - **'' | ||
+ | - **'' | ||
+ | - **'' | ||
+ | - **'' | ||
+ | Vous pouvez mettre autant de search= que vous voulez. LogisDom va successivement les exécuter l'un après l' | ||
- | Une fois la fin déterminé, | ||