Month of novembre, 2006

Web sémantique appliqué aux collections numériques

En ce moment, je fais un peu de veille sur les technologies du Web sémantique appliquées aux bibliothèques (en général) numériques (en particulier). Je vous propose de m'accompagner dans cette découverte, à travers quelques exemples commentés.

Le premier que j'ai choisi est cette démo qui propose de construire une interface à facettes dans des images à partir de données en RDF. On peut consulter dans ce prototype trois collections d'images, indexées avec 4 vocabulaires différents.

Les "plus" : c'est le côté facettes que j'aime toujours autant, mais aussi la possibilité de rebondir de concept en concept à l'infini. Le système est tolérant aux erreurs ("fuzzy search"). Les données permettent de générer un accès chronologique aux objets (périodes, personnes, oeuvres) en relation avec une requête. D'ailleurs c'est très performant en termes de recherche temporelle (on peut chercher des notions comme avant, après...) On peut exprimer des notions assez complexes (comme la relation plus ou moins éloignée entre deux choses). En plus, les images sont très belles ce qui ne gâche rien.

Les "moins" : l'affichage de certaines données est parfois assez cryptique pour des gens qui ne manipulent pas les technos du web sémantique... notamment tout ce qui permet d'accéder aux relations. Heureusement la FAQ donne quelques

Google et la lecture à l'écran

J'ai pas mal râlé contre les interfaces de lecture de livres numérisés qui ne prennent pas en compte des fonctionnalités simples comme le zoom, l'affichage de la structure, etc.

Et voilà que Google annonce son nouveau visualiseur de livre : qui propose, en vrac

  • un zoom avant-arrière
  • un tourne-page pour les amoureux du livre "à l'ancienne"
  • un ascenseur vertical, avec chargement progressif des pages, pour les amoureux de la lecture dans Word
  • un affichage "plein-écran" pour plus de confort
  • un système de palettes refermables pour les différents services (notice, achat en librairie, etc.)
  • une table des matières en mode texte (parfois un peu limitée, mais bon, elle existe)
  • un lien vers un service de recommandation et vers Google Scholar

et toujours

  • une interface simple et intuitive
  • le téléchargement de l'ouvrage complet en PDF
  • la recherche de mots dans le livre.

D'un point de vue fonctionnel, c'est presque parfait. Avec ce nouvel outil, Google nous montre une fois de plus à quel point ils sont réactifs face aux critiques, capables de trouver les compétences adéquates quand ils en ont besoin, et efficaces quand il s'agit de faire progresser leurs applications.

Evidemment, ça ne change rien à tout ce qu'on a pu dire sur la qualité de numérisation qui laisse parfois à désirer, ou sur la façon douteuse de constituer la collection et les listes

Quelques conférences

Pour les amateurs de powerpoint en série, voici quelques conférences dont on peut consulter les présentations :

Bonne lecture !

Vous avez dit "virtuel" ?

Non, en fait, j'ai dit numérique et pas virtuel.

La preuve : pour stocker des documents numériques, il faut de la place. Beaucoup de place. Par exemple un container.

A part ça, pour stocker des documents numériques, il faut de la puissance, beaucoup de puissance. Par exemple celle d'Amazon.

Du coup, pour stocker des documents numériques correctement et sur le long terme, il va falloir du temps, beaucoup de temps. Au moins 100 ans de réflexion.

Merci à Got et Faut le savoir, à Thierry et à 10KY blog.

3 ressources sur les métadonnées

Un bouquin : Metadata and its impact on libraries. A lire le résumé, je ne suis pas sûre d'être d'accord avec tout dans cet ouvrage (notamment la définition des métadonnées...), mais cela semble être une synthèse correcte et assez complète.

Un article dans Dlib : Beneath the Metadata - Some Philosophical Problems with Folksonomy. Après le coup de MARCXML, voilà maintenant qu'ils nous expliquent les différences entre l'indexation bibliothéconomique et le social tagging, et que la première est le Bien et la seconde le Mal... Pourrait-on cesser un peu d'opposer ces deux modèles et de voir le monde en noir et blanc ? Donc je ne suis pas très d'accord avec ça non plus.

Un rapport chez HP : What next for semantic blogging. Celui-ci présente un prototype d'utilisation des blogs pour créer des réseaux sémantiques. Il mélange un peu tout, les microformats, le RSS, le RDF, FOAF... Mais il y a sans doute de bonnes idées. Au moins, il écarte la tarte à la crème 2.0.

Bon c'est pas très glorieux tout ça : la blogosphère est acide et moi avec. J'essayerai de positiver un autre jour.

Merci à Resourceshelf et Catalogablog.

Mieux que Miss Dewey

Image associée au billet

Bon, d'accord, je le reconnais, Miss Dewey c'était pas mal.

Mais avez-vous jamais rêvé de danser en short rose sur la banque de prêt ?

Si oui, il est urgent de visionner cette vidéo, et surtout, regardez-la jusqu'au bout car sinon vous risqueriez de passer à côté du meilleur ;-)

Merci Nico et Mariette.

C'est Noël

Voilà, mon nouveau graphisme est en place. Vous avez le droit de protester avec véhémence dans les commentaires de ce billet, surtout si ça ne passe pas bien dans votre résolution d'écran ou avec votre navigateur/aggrégateur préféré. Vous remarquerez qu'il n'y a pas de violet... et si vous n'aimez pas non plus le rose, c'est le même prix !

A Saint-Raphael

A Saint-Raphael... non seulement il y a la mer et les palmiers, le train auto couchette, une drôle de cathédrale du 19e siècle, mais en plus, il y a une superbe médiathèque moderne qui a même un blog.

Il fait bon vivre à Saint-Raphael ;-)

(via le BBF-blog)

C'est un peu bêta

C'est la mode dans les bibliothèques de sortir des trucs en version bêta. La preuve par l'exemple...

La Library of Congress a sorti un beta search assez intéressant. Une recherche simple qui fédère toutes les ressources de la bibliothèque (catalogue, bibliothèque numérique, site Web) : cela fait carrément penser à la National Library of Australia qui propose le même service, pas beta, sur sa page d'accueil depuis au moins 2 ans.

La Bibliothèque numérique d'Oxford a sorti un site beta construit avec Greenstone. Je trouve cela dommage qu'on soit obligé d'entrer par collection, à l'anglo-saxonne : ça manque un peu de recherche globale.

Merci à Peter Scott et à ResourceShelf.

Y a-t-il un pilote dans l'avion ?

Epatant de voir qu'en 2006, les bibliothécaires s'inquiètent de savoir si la bibliothèque numérique se fera sans eux.

D'après cet article daté de 2005, il nous a fallu plus de 10 ans pour arrêter de considérer les bibliothèques numériques comme un problème technique ou technologique, et les aborder sérieusement d'un point de vue organisationnel et métier.

Alors que dans le domaine de l'édition électronique, on a dépassé depuis longtemps le concept de la désintermédiation, nous en sommes encore à nous extasier de découvrir que les lecteurs utilisent Google sans passer par nous.

Plus de 10 ans de cahiers des charges, de métadonnées, de normes et de protocoles, de spécifications fonctionnelles, d'études d'usages, d'interfaces, de moteurs, et nous croyons toujours que le bibliothécaire numérique n'existe que s'il fait de la référence en ligne ou s'il acquiert des revues. (Le monde numérique ne se limite pas aux revues, que diable !)

Il serait peut-être temps d'admettre que les bibliothèques 2.0 seront animées par... des bibliothécaires. Oui.

Dis-moi ton format, je te dirai comment durer

Image associée au billet

Le dernier n° de RLG Diginews est quasiment entièrement consacré à la préservation du numérique.

On y trouve notamment un retour d'expérience très intéressant concernant le sauvetage des "vieilles" données numériques détenues par les chercheurs de Cornell. Le "File Format and Media Migration Pilot Service" est un service de sauvetage à la demande de données numériques, qui a tourné pendant deux ans. Les individus apportaient leurs données (sur les supports qu'ils avaient) et l'équipe se chargeait de les faire migrer.
Une des conclusions intéressantes de l'étude est que finalement, les supports (disquettes, cartouches etc.) étaient en bon état, mais ce qui manquait le plus cruellement, c'était la documentation des plateformes et des logiciels qui avaient servi à créer les données.
A noter également, plus on attend, plus c'est difficile de récupérer les données.
Enfin, une conclusion vraiment surprenante : on ne peut pas faire confiance aux individus pour archiver leurs données, il vaut mieux les déposer dans un institutional repository. Incroyable, non !

Toujours dans la même revue, et toujours en provenance de Cornell, on trouve ensuite une évaluation de 5 outils de migrations de formats et d'extraction de métadonnées :

  • le Digital Asset Preservation Tool d'IBM (open source), une sorte d'outil d'émulation
  • le