Google : Les expressions régulières pour la recherche avancée
Ceci est un billet qui s'adresse à moins de 2% des utilisateurs de Google. En effet, selon Ned May, Search analyst chez Outsell Inc., seulement 1 à 2% des recherches menées sur Google (et Yahoo! Search) utilisent le formulaire ou les syntaxes de recherche avancée.
Les expressions régulières permettent en langage de programmation d'effectuer notamment des recherches d'occurences, plus globalement pour établir si une chaîne de caractères répond ou non à un modèle donné. Elles permettent aussi d'opérer certaines manipulations pour transformer cette chaîne de caractères.
Certains moteurs de recherche tel Google permettent l'utilisation de quelques expressions régulières de type ( | | ) où le pipe | est un OR.
exemple :
(crise|probleme) (alimentaire|nourriture) (monde|afrique|asie)
Bien entendu, on peut utiliser ces expressions dans les syntaxes d'affinage de Google comme la recherche sur l'url, évitant ainsi la répétition de ce type de syntaxe
Exemple : crise alimentaire -inurl:(rfi|lefigaro|.gouv) pour exclure de votre recherche les sources web RFi, Le Figaro et gouvernementales, sana avoir à taper -inurl:rfi -inurl:lefigaro, etc....
Si vous connaissez d'autres expressions régulières utilisables en recherche avancée de moteurs web...
Christophe ASSELIN [intelligence-center.com] / Digimind Competitive Intelligence
Les expressions régulières permettent en langage de programmation d'effectuer notamment des recherches d'occurences, plus globalement pour établir si une chaîne de caractères répond ou non à un modèle donné. Elles permettent aussi d'opérer certaines manipulations pour transformer cette chaîne de caractères.
Certains moteurs de recherche tel Google permettent l'utilisation de quelques expressions régulières de type ( | | ) où le pipe | est un OR.
exemple :
(crise|probleme) (alimentaire|nourriture) (monde|afrique|asie)
Bien entendu, on peut utiliser ces expressions dans les syntaxes d'affinage de Google comme la recherche sur l'url, évitant ainsi la répétition de ce type de syntaxe
Exemple : crise alimentaire -inurl:(rfi|lefigaro|.gouv) pour exclure de votre recherche les sources web RFi, Le Figaro et gouvernementales, sana avoir à taper -inurl:rfi -inurl:lefigaro, etc....
Si vous connaissez d'autres expressions régulières utilisables en recherche avancée de moteurs web...
Christophe ASSELIN [intelligence-center.com] / Digimind Competitive Intelligence
Ecrit par slide68, le Jeudi 12 Juin 2008, 17:02 dans la rubrique "Moteurs: fonctions avancées".
Commentaires :
christophe
13-06-08
à 09:15
Lien croisé
Veille référencement et moteurs [Secrets 2 Moteurs] : "Certains moteurs de recherche tel Google permettent l'utilisation de ...Source et suite de l'article : http://influx.joueb.com/news/google-les-expressions-reglieres-pour-la-recherche-avancee"
Serge Courrier
14-06-08
à 15:19
Exalead et les regex (expressions rationnelles, expressions régulières)
Exalead admet les expressions régulières. Mais l'entreprise est, depuis des années, peu diserte sur la syntaxe à employer. Certes, ils indiquent qu'il s'agit d'expressions reliées à Posix... qui existe en plusieurs versions (http://en.wikipedia.org/wiki/POSIX). Et ce n'est pas un billet récent de leur blog qui nous en apprendra beaucoup plus (http://blog.exalead.fr/2007/09/12/a-la- decouverte-de-…-la-recherche-par-«-regexp-»/). Leur page d'aide n'est également d'aucune utilité (http://www.exalead.fr/search/querySyntaxReference).
Nous en sommes donc réduits pour le moment à des supputations en tentant les différentes syntaxes disponibles.
On sait d'abord qu'il faut (dans Exalead) encadrer les requêtes regex par des slashes.
- Le point, c'est le joker. La requête /lie./ trouve des pages contenant "lieu", "lien", etc.
- L'étoile (*) n'est pas la troncature, mais le signe de répétition d'un caractère (l'intérêt de cette opération en recherche d'info m'échappe encore !).
- Le point d'interrogation est utilisé lorsque la lettre placée avant est facultative. Ainsi, /pressedd?/ trouve "pressedd" et "pressed"
- Les crochets ou brackets ([...]) permettent de gérer une classe de caractères. Ainsi, /194[137]/ permet de trouver des documents contenant "1941", "1943" ou "1947".
- Le trait d'union permet de désigner un intervalle. Ainsi, /194[1-7]/ permet de trouver des documents contenant des années comprises entre "1941" et "1947".
- Le "pipe" (|) est également utilisable en lieu et place du "OR" booléen. A2insi /Airbus A(340|380]/ trouve des documents contenant "Airbus A40" ou "Arbus A380".
Serge Courrier
Pour en savoir plus :
http://www.siteduzero.com/tuto-3-168-1-les-expressions-regulieres-partie-1-2.html
http://www.siteduzero.com/tuto-3-170-1-les-expressions-regulieres-partie-2-2.html
Nous en sommes donc réduits pour le moment à des supputations en tentant les différentes syntaxes disponibles.
On sait d'abord qu'il faut (dans Exalead) encadrer les requêtes regex par des slashes.
- Le point, c'est le joker. La requête /lie./ trouve des pages contenant "lieu", "lien", etc.
- L'étoile (*) n'est pas la troncature, mais le signe de répétition d'un caractère (l'intérêt de cette opération en recherche d'info m'échappe encore !).
- Le point d'interrogation est utilisé lorsque la lettre placée avant est facultative. Ainsi, /pressedd?/ trouve "pressedd" et "pressed"
- Les crochets ou brackets ([...]) permettent de gérer une classe de caractères. Ainsi, /194[137]/ permet de trouver des documents contenant "1941", "1943" ou "1947".
- Le trait d'union permet de désigner un intervalle. Ainsi, /194[1-7]/ permet de trouver des documents contenant des années comprises entre "1941" et "1947".
- Le "pipe" (|) est également utilisable en lieu et place du "OR" booléen. A2insi /Airbus A(340|380]/ trouve des documents contenant "Airbus A40" ou "Arbus A380".
Serge Courrier
Pour en savoir plus :
http://www.siteduzero.com/tuto-3-168-1-les-expressions-regulieres-partie-1-2.html
http://www.siteduzero.com/tuto-3-170-1-les-expressions-regulieres-partie-2-2.html
christophe
16-06-08
à 23:16
Lien croisé
Secrets2Moteurs : Veille Référencement & Moteurs : "Certains moteurs de recherche tel Google permettent l'utilisation de ...<br /><br /><font style="font-size:11px;">Source et suite de l'article : </font><a target="_blank" href="http://influx.joueb.com/news/google-les-expressions-reglieres-pour-la-recherche-avancee"><font style="font-size:11px;">http://influx.joueb.com/news/google-les-expressions-reglieres-pour-la-recherche-avancee</font></a><div class="feedflare">"
Eric
19-06-08
à 23:37
Bien entendu, on peut utiliser ces expressions dans les syntaxes d'affinage de Google comme la recherche sur l'url, évitant ainsi la répétition de ce type de syntaxeCe serait effectivement une vraie avancée. Pourtant, j'ai cherché à faire une recherche selon ce modèle sur filetype:(pdf|doc). Aucun résultat. J'ai raté un truc ?
exemple :
mangue|banane casamance filetype:pdf : 407 résultats
mangue|banane casamance filetype:doc : 32 résultats
mangue|banane casamance filetype:(pdf|doc) : pas de résultat
Cela fonctionnerait uniquement sur certains types de recherche avancée ?
En tout cas merci pour l'article
1 utilisateur = 1 recherche ?
Ceci est un billet qui s'adresse à moins de 2% des utilisateurs [...], en effet, seulement 1 à 2% des recherches menées sur Google utilisent [...]
RIP statistics
RIP statistics
Lien croisé