"Mass digitization" : voici un des sujets de cogitation en ce moment aux US. Ils englobent là-dedans les projets googeliens, OCAesques et MSNiques.
Un peu d'historique n'est pas inutile pour rappeler que si en France nous travaillons depuis plus de 10 ans à une numérisation encyclopédique de livres en vue d'atteindre une masse critique (moins critique que celle de Google certes ;-), dans les pays anglosaxons c'est plutôt une logique de collection qui a dominé les initiatives de numérisation, donc avec une forte dimension patrimoniale et dans certains cas éditoriale.
La numérisation de masse, tel que définie par Google&Co, constitue donc pour eux une vraie rupture alors que pour nous ce serait plutôt un changement d'échelle.
Karen Coyle a écrit sur ce sujet un article qui a l'air intéressant mais il est en accès payant. On en trouve des extraits sur OA news et sur Archivalia.
On peut lire également les remarques de J. Esposito, qui propose quatre exigences de base (requirements)à l'égard de ce type de projets :
- adopter une approche "archivistique" (moi j'aurais dit "patrimoniale", c'est-à-dire dans le respect de l'authenticité de la source)
- numériser des éditions récentes avec un appareil éditorial adapté pour les étudiants (ici ça se discute, il y a le problème des droits bien sûr, mais aussi une évolution à envisager - un monde où les chercheurs construiraient leurs éditions directement en ligne à partir de la numérisation...)
- présenter les documents dans un environnement permettant les annotations et les commentaires (quelle bonne idée
- permettre aux machines de travailler sur le contenu : data mining, extraction d'information.
Pour conclure il remarque qu'aucun des grands projets de numérisation de masse actuels ne respecte ces 4 exigences. Ce que Jill traduit par la question suivante : les projets de numérisation de masse devront-ils être refaits ?
Le problème avec la masse, c'est que plus elle augmente, plus la qualité baisse. Il faudrait pourtant réussir à réconcilier les deux, au moins pour la création des fac-similés image pour ne pas avoir à refaire la numérisation. Les traitements (OCR par exemple) seront refaits de toute façon car leur performance s'améliorera avec le temps. Donc on devrait se focaliser sur deux tâches essentielles qui nous éviteront d'avoir à ressortir les originaux "analogiques" de nos magasins dans 10 ans :
- la qualité et la fiabilité de la numérisation des images
- la conservation des images numériques sur le long terme.
