Dir.com, moteur lancé en janvier par le groupe Iliad (free.fr, societe.com) atteint maintenant les 100 millions de pages francophones. Ce moteur devient peu à peu essentiel pour une recherche en langue française. A titre de comparaison, Voilà.fr indexe près de 10 millions de pages et Altavista environ 30 millions de pages francophones. Et puis varier les moteurs permet souvent de découvrir des sites différents dans les premières pages de résultats. Essayez par exemple en tapant "blog" sur Google "pages francophones" et sur Dir.com...
[Source : Intelligence-Center]
Commentaires :
Re: Qui veut des millions ?
Re: Qui veut des millions ?
Je parle bien du nombre d'URL indexés "en dur" (voir la fonctions "surbrillance") et non pas de simples liens sans abstracts comme on peut le voir sur Google.
Ensuite, pour moi, la taille de l'index favorise une plus grande variété de résultats. Et j'encourage toujours les gens, dans ce monde dominé par Google, à varier les moteurs (AlltheWeb, Altavista, bases Inktomi...). Les algo des moteurs diiférent ce qui permet de voir dans les premières pages de résultats des choses différentes selon les outils. C'est ce que je voulais dire pour Dir.com. Je n'associe pas du tout taille de l'index à la pertinence. D'ailleurs, certains critères et leur pondération m'agacent un peu chez un moteur come Google, en particulier la densité. En résumé, il vaut mieux écrire un article de 15 lignes avec 2 fois le mot "choucroute" qu'un article de 300 lignes sur le même sujet, plus précis, plus documenté mais où les 2 mots "choucroutes" vont être noyés et donc subir un indice de densité très faible.
Evaluation de la taille des index ...
Exemples :
"demain" sur Google : 838000 réponses
"demain" sur Dir.com : 841000 réponses
"demain" sur Voila : 193000 réponses
"voitures" sur Google : 841000 réponses
"voitures" sur Dir.com : 735000 réponses
"voitures" sur Voila : 170000 réponses
"aller" sur Google : 2480000 réponses
"aller" sur Dir.com : 2272000 réponses
"aller" sur Voila : 510000 réponses
L'information qu'on peut tirer de cela, c'est que Google et Dir.com ont des indexes de taille à peu près équivalentes alors que Voila est de 4 à 5 fois plus petit, soit 14 millions d'url, ce qui confine au ridicule.
Je rejoins par ailleurs Biz sur l'idée que la taille d'un index ne fait pas la pertinance, mais je réfute l'idée que cela n'est pas très important : si les pages qui intéressent l'internaute sont dans le tas des pages "non connues" d'un index, il a peu de chance de les découvrir :-)
Re: Evaluation de la taille des index ...
Un moyen plus fiable, c'est de faire l'inverse : tu cherches des mots peu courants, avec moins de 200 resultats. Ca te permet de compter effectivement tous les resultats, de verifier qu'il ne s'agit pas de sites miroirs, de problemes de canonicalisation des adresses (machin.com et machin.com/index.html), ou de spam. Mieux, tu peux verifier qu'il ne s'agit pas de pages qui n'existent pas ou plus. Si tu fais une recherche sur un mot courant, sur certains moteurs, tu te retrouves avec un nombre "estime" comme "1 - 10 résultats, sur un total d'environ 8,510,000". Generalement, l'estimation est a la hausse. ;-)
Re: Re: Evaluation de la taille des index ...
Ta méthode est cependant certainement beaucoup plus fine si on l'applique à un grand nombre (grand comment ?) de mots faiblement représentés ...
Biz
Qui veut des millions ?
Attention aux nombres, en general, ca ne veut pas dire grand chose, sauf quand on sait exactement de quelle facon ils ont ete comptes. S'agit ils des documents vers lesquels le moteur a au moins un lien ? Les documents qui ont ete visites ? Les documents qui sont dans l'index ? Est ce que cela inclut les sites miroirs, les documents similaires, le spam ?
"Dir.com a trouvé 15 réponses (sur 79.817.386 pages) pour "serendipidity""
On a deja perdu 20 millions de documents quelque part par rapport aux 100 millions annonces. Et si on compte les reponses, il y en a 7 et pas 15. Meme en allant dans les preferences pour demander tous les documents, meme similaires. Alors quelle est la vraie taille de l'index ? Mystere et boule de gomme.
Se mefier egalement de la tentante conclusion plus gros = meilleur.