Joueb.com
Envie de créer un weblog ?
Soutenez le Secours populaire
ViaBloga
Le nec plus ultra pour créer un site web.
Débarrassez vous de cette publicité : participez ! :O)

Dir.com, le moteur français qui monte
--> Moteurs :

Dir.com, moteur lancé en janvier par le groupe Iliad (free.fr, societe.com) atteint maintenant les 100 millions de pages francophones. Ce moteur devient peu à peu essentiel pour une recherche en langue française. A titre de comparaison, Voilà.fr indexe près de 10 millions de pages et Altavista environ 30 millions de pages francophones. Et puis varier les moteurs permet souvent de découvrir des sites différents dans les premières pages de résultats. Essayez par exemple en tapant "blog" sur Google "pages francophones" et sur Dir.com...
[Source : Intelligence-Center]  

Ecrit par slide68, le Mercredi 11 Juin 2003, 22:23 dans la rubrique "Moteurs".

Commentaires :

Biz
Biz
11-06-03 à 23:25

Qui veut des millions ?

Attention aux nombres, en general, ca ne veut pas dire grand chose, sauf quand on sait exactement de quelle facon ils ont ete comptes. S'agit ils des documents vers lesquels le moteur a au moins un lien ? Les documents qui ont ete visites ? Les documents qui sont dans l'index ? Est ce que cela inclut les sites miroirs, les documents similaires, le spam ?

"Dir.com a trouvé 15 réponses (sur 79.817.386 pages) pour "serendipidity""

On a deja perdu 20 millions de documents quelque part par rapport aux 100 millions annonces. Et si on compte les reponses, il y en a 7 et pas 15. Meme en allant dans les preferences pour demander tous les documents, meme similaires. Alors quelle est la vraie taille de l'index ? Mystere et boule de gomme.

Se mefier egalement de la tentante conclusion plus gros = meilleur.


 
Biz
Biz
11-06-03 à 23:32

Re: Qui veut des millions ?

Je n'avais pas vu le lien "Voir toutes les réponses de shopping.lycos.fr ", j'ai bien mes 15 resultats. :)

 
slide68
slide68
12-06-03 à 13:09

Re: Qui veut des millions ?

Je parle bien du nombre d'URL indexés "en dur" (voir la fonctions "surbrillance") et non pas de simples liens sans abstracts comme on peut le voir sur Google.

Ensuite, pour moi, la taille de l'index favorise une plus grande variété de résultats. Et j'encourage toujours les gens, dans ce monde dominé par Google, à varier les moteurs (AlltheWeb, Altavista, bases Inktomi...). Les algo des moteurs diiférent ce qui permet de voir dans les premières pages de résultats des choses différentes selon les outils. C'est ce que je voulais dire pour Dir.com. Je n'associe pas du tout taille de l'index à la pertinence. D'ailleurs, certains critères et leur pondération m'agacent un peu chez un moteur come Google, en particulier la densité. En résumé, il vaut mieux écrire un article de 15 lignes avec 2 fois le mot "choucroute" qu'un article de 300 lignes sur le même sujet, plus précis, plus documenté mais où les 2 mots "choucroutes" vont être noyés et donc subir un indice de densité très faible.


 
UnAutre
UnAutre
12-06-03 à 09:55

Evaluation de la taille des index ...

Un moyen d'évaluer la taille des index des moteurs, c'est de faire des requêtes sur des mots courants dans différents moteurs. Comme les mots sont courants, ils vont être couremment utilisés dans les pages web et connaître un grand nombre d'occurences.

Exemples :

"demain" sur Google : 838000 réponses
"demain" sur Dir.com : 841000 réponses
"demain" sur Voila : 193000 réponses

"voitures" sur Google : 841000 réponses
"voitures" sur Dir.com : 735000 réponses
"voitures" sur Voila : 170000 réponses

"aller" sur Google : 2480000 réponses
"aller" sur Dir.com : 2272000 réponses
"aller" sur Voila : 510000 réponses

L'information qu'on peut tirer de cela, c'est que Google et Dir.com ont des indexes de taille à peu près équivalentes alors que Voila est de 4 à 5 fois plus petit, soit 14 millions d'url, ce qui confine au ridicule.

Je rejoins par ailleurs Biz sur l'idée que la taille d'un index ne fait pas la pertinance, mais je réfute l'idée que cela n'est pas très important : si les pages qui intéressent l'internaute sont dans le tas des pages "non connues" d'un index, il a peu de chance de les découvrir :-)

 
Biz
Biz
12-06-03 à 19:06

Re: Evaluation de la taille des index ...

Un moyen plus fiable, c'est de faire l'inverse : tu cherches des mots peu courants, avec moins de 200 resultats. Ca te permet de compter effectivement tous les resultats, de verifier qu'il ne s'agit pas de sites miroirs, de problemes de canonicalisation des adresses (machin.com et machin.com/index.html), ou de spam. Mieux, tu peux verifier qu'il ne s'agit pas de pages qui n'existent pas ou plus. Si tu fais une recherche sur un mot courant, sur certains moteurs, tu te retrouves avec un nombre "estime" comme "1 - 10 résultats, sur un total d'environ 8,510,000". Generalement, l'estimation est a la hausse. ;-)


 
UnAutre
UnAutre
13-06-03 à 07:55

Re: Re: Evaluation de la taille des index ...

Cette méthode (utilisation de mots "faiblement représentés") présente le risque de marges d'erreur importantes : supposons qu'un mot ne soit représenté que 10 fois sur le web. Un moteur en connaît 8 et l'autre 6 ... Le calcul donnera une différence de 30% (ou 25% en fonction du sens :)) sur la taille des index pour seulement 2 documents qu'un moteur ne connaît pas.

Ta méthode est cependant certainement beaucoup plus fine si on l'applique à un grand nombre (grand comment ?) de mots faiblement représentés ...

 
essay writing ninja
18-12-17 à 12:39

Re: Re: Evaluation de la taille des index ...

What are the current updates on google search results locally? I'm trying to create a diagram for the local and geographical keywords. That should be a report for my college class. But there's still the data that I have from Alabama.

 
linkback
linkback
28-12-03 à 03:56

Lien croisé

Les Autres : " Lors de mon petit tour du web matinal, je suis tombé sur cet article d'inFLUX : « Dir.com, le moteur français qui montre ». On apprend que le moteur de recherche du groupe Iliad (Dir.com) commence à taquiner Google dans le monde francophone, alors que Voila.fr se retrouve maintenant "