Dans son étude de 2000 " The 'Deep' Web: Surfacing Hidden Value" consacrée au Web Invisible, Bright Planet avait alors cité les sites les plus volumineux du net : National Climatic Data Center (NOAA), NASA EOSDIS, National Oceanographic (combined with Geophysical Data Center (NOAA), Alexa, Right-to-Know Network (RTK Net), MP3.com, Terraserver,....(le détail page 6 de l'étude).
Où en est-on 7 ans plus tard avec l'avènement du Web 2, le stockage croissant de vidéos, la baisse des coûts de traitement et de stockage ?
Le blog Business Intelligence Lowdown nous apporte quelques réponses en publiant Top 10 Largest Databases in the World. Sont listés par ordre décroissant d'importance : Library of Congress, Central Intelligence Agency, Amazon, YouTube, ChoicePoint, Sprint, Google, AT&T, National Energy Research Scientific Computing Center, World Data Centre for Climate...Et aussi : Nielsen Media Research / Nielsen Net Ratings, Myspace, United States Customs, HPSS.
La description de ces BdD est intéressante. Mais on peut se poser quelques questions à la vue de ce classement : quelle est l'origine des sources permettant un tel classement ? Certaines bases n'ont-elles pas été oubliées (celles de la NASA par exemple ?)
N'y-a-t-il vraiment aucune base de données européenne ou asiatique dans ces 15 premiers (je pense par exemple à l'INA , leader mondial des archives vidéos, 1 million d'heures, plusieurs dizaines de Peta octets). Ou le postulat de ce billet est-il de ne considérer que les bases web nord-américaines ?
Plus globalement, côté taille du web, Pandia revient sur les derniers chiffres évoqués par des sources diverses. Dans cet exercice périlleux (vain et impossible ?) d'estimation de la taille du web, les chiffres varient ces dernières années entre 15 et 30 milliards de pages selon les sources : Netcraft, ISC.... Et que compte-t-on d'abord lors de ces chiffrages : de pures pages html ou bien tous documents qui se trouvent sur le web à l'instar de Yahoo! Search qui annonçait en 2005 indexer plus de 20 milliards de documents ?
> Voir aussi : White Paper Web Invisible