Joueb.com
Envie de créer un weblog ?
Soutenez le Secours populaire
ViaBloga
Le nec plus ultra pour créer un site web.
Débarrassez vous de cette publicité : participez ! :O)

Google indexe désormais les documents scannés

Google élargit encore le spectre de types de documents qu'il met à disposition dans son gigantesque index. Après les documents de type Office, la vidéo, Google annonce qu'il a la capicité d'indexer les milliers de documents scannés par les internautes et mis à disposition sur le web sous format PDF. On connaissait déjà la capacité de Google à numériser , via ses propres machines, des millions de pages et les mettre à disposition dans son Google Book Search.
Mais là, il s'agit d'interpréter les documents numérisés par les utilisateurs eux-mêmes, donc parfois dans un format un peu "sale" compte tenu du support original (plis du papier, caractères mal imprimés, traces de cafés...). Ces scans sont des images de textes qu'il va falloir traduire. Google utlise donc la technologie OCR pour traduire des pages de textes, schémas voire des images scannées,  en texte, qu'il rend disponible au format PDF ou html.
Dans les exemples que le moteur fournit sur son blog, le résultat est très propre et on voit même des légendes d'images ou des textes intégrés dans des schémas parfaitement interprétés (voir le résultat repairing aluminum wiring, son PDF et l'équivalent html) . En considérant que Google s'est certainement adjoint les meilleurs technologies de reconnaissance optique de caractères (OCR), tous les scans bénéficieront -ils de cette qualité d'interprétation ?

Un document numérisé puis indexé par Google après OCR
Un document numérisé et son format html après le passage de l'OCR.

Les moteurs sont donc capables d'indexer des formats de plus en plus nombreux. Mais il n'en a pas toujours été ainsi. Avant 2002, seul le html classique était indexé. Puis le pionnier norvégien AllthWeb s'est mis à indexer le PDF, le flash puis les documents de type Office.

A picture of a thousand words? (Official Google Blog)

> Voir aussi :

  • Europeana : "ébauche" de la future bibliothèque numérique
  • Un métamoteur pour la recherche de livres
  • Google mixe Google Book Search et Google Maps
  • Microsoft Live Search Books (beta)
  • Google Book Search améliore son interface

    Christophe ASSELIN [intelligence-center.com] / Digimind Competitive Intelligence

  • Ecrit par slide68, le Dimanche 2 Novembre 2008, 18:47 dans la rubrique "Numérisation, bibliothèques".

    Commentaires :

    christophe
    06-11-08 à 19:39

    Lien croisé

    affordance.info : "uissance de frappe &quot;made in Google&quot; sur toutes les étapes de la numérisation (institutionnelle, personnelle, en amont, en aval ...) augmente (encore) d'un cran. L'info est disponible sur le <a href="http://googleblog.blogspot.com/2008/10/picture-of-thousand-words.html">blog officiel de Google</a> et commentée (notamment) chez <a href="http://influx.joueb.com/news/google-indexe-desormais-les-documents-scannees">Christophe Asselin</a>.</li>"

     
    christophe
    07-11-08 à 00:06

    Lien croisé

    affordance.info : "lusions : le web invisible recule encore, la puissance de frappe "made in Google" sur toutes les étapes de la numérisation (institutionnelle, personnelle, en amont, en aval ...) augmente (encore) d'un cran. L'info est disponible sur le blog officiel de Google et commentée (notamment) chez Christophe Asselin."

     
    christophe
    20-01-09 à 09:16

    Lien croisé

    Google - Le blog de Kallirrhoe : "est disponible sur le blog officiel de Google et commentée (notamment) chez Christophe Asselin."

     
    christophe
    20-02-09 à 10:31

    Lien croisé

    affordance.info: Moteurs et autres engins : "ions : le web invisible recule encore, la puissance de frappe "made in Google" sur toutes les étapes de la numérisation (institutionnelle, personnelle, en amont, en aval ...) augmente (encore) d'un cran. L'info est disponible sur le blog officiel de Google et commentée (notamment) chez Christophe Asselin."