Google élargit encore le spectre de types de documents qu'il met à disposition dans son gigantesque index. Après les documents de type Office, la vidéo, Google annonce qu'il a la capicité d'indexer les milliers de documents scannés par les internautes et mis à disposition sur le web sous format PDF. On connaissait déjà la capacité de Google à numériser , via ses propres machines, des millions de pages et les mettre à disposition dans son Google Book Search.
Mais là, il s'agit d'interpréter les documents numérisés par les utilisateurs eux-mêmes, donc parfois dans un format un peu "sale" compte tenu du support original (plis du papier, caractères mal imprimés, traces de cafés...). Ces scans sont des images de textes qu'il va falloir traduire. Google utlise donc la technologie OCR pour traduire des pages de textes, schémas voire des images scannées, en texte, qu'il rend disponible au format PDF ou html.
Dans les exemples que le moteur fournit sur son blog, le résultat est très propre et on voit même des légendes d'images ou des textes intégrés dans des schémas parfaitement interprétés (voir le résultat repairing aluminum wiring, son PDF et l'équivalent html) . En considérant que Google s'est certainement adjoint les meilleurs technologies de reconnaissance optique de caractères (OCR), tous les scans bénéficieront -ils de cette qualité d'interprétation ?
Un document numérisé et son format html après le passage de l'OCR.
Les moteurs sont donc capables d'indexer des formats de plus en plus nombreux. Mais il n'en a pas toujours été ainsi. Avant 2002, seul le html classique était indexé. Puis le pionnier norvégien AllthWeb s'est mis à indexer le PDF, le flash puis les documents de type Office.
A picture of a thousand words? (Official Google Blog)
> Voir aussi :
Christophe ASSELIN [intelligence-center.com] / Digimind Competitive Intelligence
Commentaires :
Lien croisé