inFLUX - Google indexe désormais les documents scannés

Google indexe désormais les documents scannés

Google élargit encore le spectre de types de documents qu'il met à disposition dans son gigantesque index. Après les documents de type Office, la vidéo, Google annonce qu'il a la capicité d'indexer les milliers de documents scannés par les internautes et mis à disposition sur le web sous format PDF. On connaissait déjà la capacité de Google à numériser , via ses propres machines, des millions de pages et les mettre à disposition dans son Google Book Search.
Mais là, il s'agit d'interpréter les documents numérisés par les utilisateurs eux-mêmes, donc parfois dans un format un peu "sale" compte tenu du support original (plis du papier, caractères mal imprimés, traces de cafés...). Ces scans sont des images de textes qu'il va falloir traduire. Google utlise donc la technologie OCR pour traduire des pages de textes, schémas voire des images scannées, en texte, qu'il rend disponible au format PDF ou html.
Dans les exemples que le moteur fournit sur son blog, le résultat est très propre et on voit même des légendes d'images ou des textes intégrés dans des schémas parfaitement interprétés (voir le résultat repairing aluminum wiring, son PDF et l'équivalent html) . En considérant que Google s'est certainement adjoint les meilleurs technologies de reconnaissance optique de caractères (OCR), tous les scans bénéficieront -ils de cette qualité d'interprétation ?

Un document numérisé puis indexé par Google après OCR
Un document numérisé et son format html après le passage de l'OCR.

Les moteurs sont donc capables d'indexer des formats de plus en plus nombreux. Mais il n'en a pas toujours été ainsi. Avant 2002, seul le html classique était indexé. Puis le pionnier norvégien AllthWeb s'est mis à indexer le PDF, le flash puis les documents de type Office.

A picture of a thousand words? (Official Google Blog)

> Voir aussi :

Europeana : "ébauche" de la future bibliothèque numérique

Un métamoteur pour la recherche de livres

Google mixe Google Book Search et Google Maps

Microsoft Live Search Books (beta)

Google Book Search améliore son interface

Christophe ASSELIN [intelligence-center.com] / Digimind Competitive Intelligence

Ecrit par slide68, le Dimanche 2 Novembre 2008, 18:47 dans la rubrique "Numérisation, bibliothèques".

Repondre a cet article

Commentaires :

christophe

06-11-08 à 19:39

Lien croisé

affordance.info : "uissance de frappe "made in Google" sur toutes les étapes de la numérisation (institutionnelle, personnelle, en amont, en aval ...) augmente (encore) d'un cran. L'info est disponible sur le <a href="http://googleblog.blogspot.com/2008/10/picture-of-thousand-words.html">blog officiel de Google</a> et commentée (notamment) chez <a href="http://influx.joueb.com/news/google-indexe-desormais-les-documents-scannees">Christophe Asselin</a>.</li>"

Repondre a ce commentaire

christophe

07-11-08 à 00:06

Lien croisé

affordance.info : "lusions : le web invisible recule encore, la puissance de frappe "made in Google" sur toutes les étapes de la numérisation (institutionnelle, personnelle, en amont, en aval ...) augmente (encore) d'un cran. L'info est disponible sur le blog officiel de Google et commentée (notamment) chez Christophe Asselin."

Repondre a ce commentaire

christophe

20-01-09 à 09:16

Lien croisé

Google - Le blog de Kallirrhoe : "est disponible sur le blog officiel de Google et commentée (notamment) chez Christophe Asselin."

Repondre a ce commentaire

christophe

20-02-09 à 10:31

Lien croisé

affordance.info: Moteurs et autres engins : "ions : le web invisible recule encore, la puissance de frappe "made in Google" sur toutes les Ã©tapes de la numÃ©risation (institutionnelle, personnelle, en amont, en aval ...) augmente (encore) d'un cran. L'info est disponible sur le blog officiel de Google et commentÃ©e (notamment) chez Christophe Asselin."

Repondre a ce commentaire

asa binney

11-09-24 à 08:10

Google a commencé à indexer les documents Skribbl IO scannés grâce à ses avancées en reconnaissance optique de caractères (OCR).

Repondre a ce commentaire

Exprand

25-11-24 à 12:45

Google now indexes scanned documents, making it easier to find digitized content online. This is a big step for education and gaming platforms like abcya as users can discover more resources and activities seamlessly.

Repondre a ce commentaire

Sonya Holland

08-01-25 à 07:54

nice

It always want to update and and give the reaction according to what the keys you press as just like the connections;'. But after it if you want to full format then you should open this website.

Repondre a ce commentaire

bonitacaily

11-03-25 à 07:19

very good!

I recommend you try smashy road, you won’t be disappointed.

Repondre a ce commentaire

Nom d'utilisateur
Mot de passe
Se souvenir de moi