Google dispose de nombreux serveurs (peut-être près de 200 000 répartis dans plus de 60 data centers) avec une infrastructure en réseau qui représente une puissance de calcul de 600 téraflops (1000 milliards d'opérations par seconde).
Cet ensemble est maitenant plus puissant que les supercalculateurs de la NSA et de la NASA.
Coté indexation, quel impact sur le temps de traitement des quelques 10 milliards de pages web stockées sur ces serveurs ?
Sur GigaOm, Matt Cutts, ingénieur chez Google, explique que le temps nécessaire au renouvellement de tout l'index de Google avait raccourci pour atteindre 2 à 3 semaines (et non aps 2 à 3 jours comme écrit) contre 1 mois en 2003. Le développement du hardware et des softs a permis d'accélerer la vitesse de crawl.
Toutefois on peut observer une différence de "traitement" selon la nature des documents. L'index de Google Images est ainsi renouvellé 3 fois par an, les blogs sur Google Blog Search 1 à 2 fois par jour, certaines pages du web sont visitées tous les 2 jours alors que d'autres, mises à jour par leur auteur moins fréquemment, bénéficient d'un passage des robots supérieur à 1 mois.
Christophe ASSELIN
Commentaires :
Lien croisé