Month of mars, 2005

user warning: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'auteur'' at line 1 query: SELECT DISTINCT mm.uri as uri FROM moat_meanings mm, term_data td WHERE mm.tid = td.tid AND mm.nid = '601' AND td.name = 'droits d'auteur' in /home.10.23/lespetitA/www/figoblog/includes/database.mysql.inc on line 172.

Documents en voie de disparition

Image associée au billet

J'avais l'intention de faire un billet sur la conservation des documents numériques, notamment suite à un article diffusé sur ArchiveSic qui faisait assez bien le point sur la question - mais BlogoKat a été plus rapide que moi et je l'en remercie. Donc allez lire cet article, une bonne introduction au sujet, mais attention aux fautes d'orthographe ;-)

Sur le sujet, une des ressources clef est le groupe PIN (pour "pérennisation de l'information numérique"). C'est un groupe dont l'objectif est de rassembler des gens de plusieurs secteurs d'activités qui s'intéressent à cette problématique compliquée : des institutions patrimoniales, des organismes de recherche scientifique, des entreprises... Et tous ces gens travaillent à la veille et à la dissémination de l'expertise dans ce domaine.

Tout ça pour dire qu'on trouve sur le site du groupe PIN, parmi moult ressources sur la préservation des documents numériques, les comptes-rendus des réunions du groupe dont la dernière s'est tenue la semaine dernière.

En prime, je vous offre la fameuse photo du dodo du Salon du livre dont je vous parlais l'autre jour . Dans le genre espèces disparues...

Bloguifiez vos listes

Image associée au billet

Justement, aujourd'hui, je rentre de week-end (j'étais , sur la photo), j'ouvre ma boîte aux lettres (électronique, cela va sans dire) et je croule sous les messages de listes de discussions diverses et variées. Non pas que ce soit désagréable, hein, mais cela complique la gestion des choses. Par ailleurs, j'ai plus l'habitude de crouler sous les billets dans mon aggrégateur RSS, donc cela perturbe mon environnement cognitif.

J'ai bien essayé quelques solutions ; par exemple, dans Bloglines on peut créer des adresses e-mail, avec lesquelles on s'abonne aux listes et hop, ça arrive dans le paquet "aggrégateur". Mais bon, je n'étais pas pleinement satisfaite : les fonctionnalités de gestion d'e-mail ne sont pas les mêmes que celles des billets, et encore une fois, ça me perturbe.

Et aujourd'hui, je viens découvrir Gmane : un service gratuit qui bloguifie les listes de discussion. En clair, il leur donne une interface qui ressemble à un blog, et un fil RSS. On y trouve par exemple la liste Web4Lib à laquelle je n'avais jamais eu le courage de m'abonner, mais maintenant c'est fait.

Evidemment on peut toujours discuter : est-ce un blog, un faux-blog, un pseudo-blog...

Pour les mordus de RSS, il y a aussi le site LISfeeds qui recense et aggrège tout plein de fils en sciences de l'info - pas seulement anglophones (sauf le mien, snif !)

Edition électronique de textes

J'ai vu passer sur Catalogablog et DigitizationBlog une info sur le site Electronic Textual Editing du TEI consortium, et bien que je ne sache pas trop quoi faire de cette info, j'ai décidé de la ranger ici.

En fait, si j'ai bien compris, il s'agit d'un livre en préparation qui regroupe des articles sur l'utilisation de la TEI. Comme ces gens-là font les choses bien, ils ont préparé le livre en TEI et ils ont mis les articles en ligne.

Ca a l'air intéressant, il y a diverses choses médiévalisantes qui devraient faire plaisir à mon geek s'il ne les connaît pas encore, et aussi des choses sur la façon d'utiliser la TEI : par exemple un article sur les niveaux de transcription qui s'intéresse à la "profondeur" du balisage.

Si vous voulez en savoir plus sur la TEI, vous pouvez rendre visite à Blogokat . Si vous voulez savoir à quoi peut servir la TEI en bibliothèque - où s'arrête la numérisation, où commence l'édition - lisez ça .

Extensions

J'ai découvert deux supers extensions pour Firefox à installer d'urgence.

La première c'est MozCC : une extension qui permet de visualiser, dans la barre d'état (en bas de votre navigateur), les termes de la licence Creative Commons du site que vous êtes en train de consulter. Ca marche si le site est sous licence Creative Commons , cela va de soi, et si la licence est correctement encodée dans la page pour être machine-readable.

La seconde s'appelle Dublin Core Viewer , et elle ajoute dans votre barre d'état (même endroit) un petit bouton en forme de logo du DCMI . Si le site possède des métadonnées en Dublin Core correctement encodées elles aussi, le petit bouton devient orange, vous cliquez et les métadonnées s'affichent.

Merci à mon geek et à Catalogablog .

Salon du livre 2005

Image associée au billet

Aujourd'hui, je suis allée au salon du livre pour la journée professionnelle du lundi. Il n'y avait pas, comme l'année dernière , une foule de conférences qui m'intéressaient, aussi je me suis contentée de me ballader entre les stands et de m'imprégner.

L'autre jour, une amie me demandait ce qu'il y avait de si spécial au salon du livre, et je lui ai répondu que c'était comme une librairie, mais en géant. En fait, j'étais bien en-dessous de la réalité.

Le Salon du livre est en effet une grande librairie, mais une librairie où on peut avoir un vrai dialogue avec les éditeurs, par exemple dans le secteur jeunesse où ils vous font découvrir aussi bien les nouveautés que les incontournables, en fonction de ce qu'on cherche. Même si on cherche un truc saugrenu comme le Garçon des figues .

On y rencontre aussi des gens extraordinaires, comme Viviane Hamy qui n'est pas seulement l'éditeur de Fred Vargas, mais aussi une femme ébouriffante qui peut vous parler d'un de ses auteurs avec une flamme dans les yeux, et vous faire voyager de la maison de celui-ci dans le Sud de la France jusqu'au Paris du milieu du XXe siècle sans que vous y voyiez que du feu.

On y croise des gens connus, ou seulement des connaissances, et puis même des amis, rituel annuel, pour boire un café (ou plutôt une bière) assis par terre sur la moquette rouge et parlant de tout

Figue fashion

Image associée au billet

Cette fois je crois qu'il va bien falloir me rendre à l'évidence : les figues sont à la mode. Ce n'est pas juste le prisme de mon obsession qui fait qu'il y a des figues partout, les figues sont vraiment dans l'air du temps.

Déjà, la couleur : le vieux rose et le violet ont été à la mode tout l'hiver, c'était une catastrophe, je m'achetais des fringues tout le temps. Et puis, il suffit d'entrer dans un magasin : on trouve des barres de céréales aux figues, au moins 3 marques de gel douche aux figues, et même du baume à cheveux aux figues.

Et il faut voir tous ces produits vanter les mérites de la figue : et qu'elle est nutritive, et qu'elle est riche, et qu'elle est jolie, sucrée, subtile, et que sais-je encore.

Et puis comble du comble, hier j'ai trouvé des bas résilles couleur figue !!! Vous y croyez vous ! Et c'était écrit dessus ! J'en ai acheté une paire, l'avantage, c'est que c'est assorti à l'ensemble de ma garde-robe.

Joyeux figobloguiversaire

Image associée au billet

Eh oui, un an, déjà !

Pour fêter ça, un petit message de service : pour ceux qui n'auraient pas remarqué (apparemment ils sont nombreux) il y a maintenant un fil RSS en HTML . Grâce à ce fil, vous pouvez avoir une version lisible de mon blog, et même avec les liens cliquables, sans jamais passer par ici, avantage immense qui vous évitera d'avoir a subir mon horrible feuille de style rétro (mais moi je l'aime bien, hein, ce design).

Tiens à propos, elle ne va plus faire très long feu, cette feuille de stye, je suis en train d'en couver une nouvelle, et cette fois je laisserai mon geek travailler, il fait ça tellement bien.

Bon et à part ça, il y a aussi un fil RSS des commentaires grâce auquel vous pourrez suivre les parcimonieux commentaires des rares visiteurs de mon univers figuesque.

Et puis ceux qui n'auraient pas changé l'adresse de leurs fils depuis que j'ai un nouveau nom de domaine (vous, là, dans Bloglines ! Je vous ai vus !), actualisez :

Mise à jour :

Et voilà le gâteau aux figues pour Hubert... Avec plein de bougies...

L'information n'est pas connaissance

Quand on fait une recherche dans Google.com, en la faisant précéder par exemple du mot "books", on se voit maintenant proposer l'accès à des références issues de google print, une à trois en général.
Si on clique sur la référence en question, on arrive sur une page de consultation d'un livre, avec au centre, la page où se trouvent les mots cherchés, surlignés en jaune, avec la possibilité d'avancer ou de reculer de trois pages. A gauche, on voit la couverture du bouquin et quelques liens qui permettent de relancer une recherche dans l'ouvrage ou d'aller sur Amazon et dans quelques autres librairies.

Google's mission is to organize the world's information

(la mission de google est d'organiser l'information du monde) nous dit-on sur la page de présentation de Google print. Et c'est bien de cela qu'il s'agit, en effet.
Cette recherche plein texte, lancée sur des pages et des pages de livres numérisés, nous permet de faire sortir du lot au maximum trois résultats, quelle que soit la requête. La consultation des mots trouvés donne accès à un ensemble qui fait au maximum six pages.
Somme-toute, qu'a-t-on obtenu par cette requête ? Dans le meilleur des cas, l'information que ces mots figurent dans un ouvrage que vous pouvez par ailleurs acheter. Je vous souhaite de ne pas vous intéresser aux figues (figs) car Google choisira pour vous, au

Mise à jour :

Vous avez vu ça, chez Libé ils sont d'accord avec moi :

Les DRM ne sont pas "cool"

La première fois que j'ai entendu parler de Cory Doctorow, j'ai bien ri en lisant ce qu'il était allé raconter chez Microsoft sur les DRM . Non pas parce que c'était drôle en soi, mais parce qu'il avait une façon vraiment réjouissante de présenter les choses (surtout face à Microsoft).

Les FRBR, qu'est-ce que c'est ?

Dans le contexte de la société de l'information, beaucoup de gens, et notamment les geeks, pensent qu'ils ont des choses à apprendre des bibliothécaires, car ces derniers ont une certaine expérience dans des domaines devenus clef : le catalogage, la classification, l'indexation. Pour faire ouvert, dites : les métadonnées, le Web sémantique, les ontologies. Ah, je vois une lueur d'intérêt dans votre oeil...

Or, pour gérer des données, ces gens-là (les geeks) travaillent de la manière suivante : ils font de la modélisation, puis des spécifications, et enfin ils implémentent. Nous, pauvres bibliothécaires et catalogueurs, le nez dans le guidon trop souvent, nous avons commencé par créer un format d'implémentation (MARC), s'appuyant quand même sur une norme (l'ISBD). Mais mieux vaut tard que jamais, nous avons fini par faire la modélisation et les spécifications de nos données bibliographiques : ce sont les FRBR.

Les FRBR (Functional Requirements of Bibliographic Records, en français : spécifications fonctionnelles des notices bibliographiques) sont une modélisation conceptuelle de l'information contenue dans les notices bibliographiques.

Comment ça marche ?

Je vais essayer de résumer le contenu des spécifications bien que ce soit un véritable défi.
En gros, les FRBR organisent les différentes composantes de la description bibliographique

On the road (again)

Comme promis, le blog de Formist a ouvert depuis la mi-février.

Il nous propose un périble dans les bibliothèques américaines : San Francisco, San José... photos à l'appui, ainsi que des réflexions sur le métier de bibliothécaire, ici et là-bas , et d'autres ressources.

A suivre.

Bibliothéconomie numérique

A lire sur le site de Ukoln, un guide de bonnes pratiques datant de l'an dernier et destiné aux institutions patrimoniales qui mettent des contenus en ligne.

Il y est question de gestion de projet, de numérisation, de CMS , de métadonnées, de préservation des données numériques, d'accessibilité... Tout ce qu'il faut.

J'en profite pour signaler la naissance d'une conférence internationale exclusivement consacrée à la bibliothéconomie numérique : Digital Curation Conference .

The term digital curation is used in this call for the actions needed to maintain digital research data and other digital materials over their entire life-cycle and over time for current and future generations of users.

Leur site nous promet aussi l'élaboration d'un manuel sur le sujet.

Merci à Lorcan Dempsey et à Diglet .

PURL + OAI = POI

Les identifiants pérennes, retour de la vengeance.

Je viens de découvrir, via Catalogablog lui même via Lorcan Dempsey un système d'identifiants pérenne que je ne connaissais pas mais qui en combine deux que je connaissais :

Le système s'appelle POI pour PURL-based Object Identifier.

Les particularités de ce système : on n'a pas besoin d'enregistrer les POI pour chaque ressource, il suffit d'avoir un entrepôt OAI dans lequel les ressources ont des identifiants. On peut ensuite transformer de manière implicite les identifiants OAI en identifiants POI de la manière suivante :

un document qui porte l'identifiant :

oai:mon-nom-de-domaine.org:123456

a l'identifiant POI suivant :

http://purl.org/poi/mon-nom-de-domaine.org/1233456

Evidemment la conséquence de cette petite transformation est que le nouvel identifiant POI est compréhensible par un navigateur grâce au protocole HTTP. Et ensuite on utilise le résolveur PURL pour résoudre les POI et pointer vers les ressources elles-mêmes.

Pendant ce temps, à New York...

Image associée au billet

... naît une nouvelle bibliothèque numérique : celle de la New York Public Library . Dont les serveurs sont tombés à l'heure qu'il est, mais ce n'est pas mon billet qui va alourdir considérablement la charge.

Enfin, c'est dommage car justement, je voulais écrire combien je trouvais leur interface agréable, facile à utiliser, inventive.

Pour cette bibliothèque numérique, le contenu se compose essentiellement d'images : photos, dessins, gravures, enluminures, cartes, affiches, etc. C'est vrai, le mode texte, c'est totalement la classe , mais les bibliothèques ne conservent pas que des documents textuels. Ceci dit, on peut imaginer que cette politique documentaire tournée vers l'iconographie vient en complémentarité d'un gros projet de numérisation de textes avec un partenaire privé ;-)

Que dire sur cette interface ? La recherche est simplissime, une seule case, avec un bon moteur (Lucene) qui tourne derrière. Les résultats se présentent sous forme de vignettes, assez petites pour qu'on puisse en mettre beaucoup, assez grandes pour qu'on voie de quoi il s'agit. Les images sont de bonne qualité, on peut les visualiser avec les notices ou sans. Chaque description comporte un lien vers la notice dans le catalogue. Il y a aussi des "rebonds", pas sur un seul champ mais sur plusieurs, avec un système de cases à cocher (je trouve ça excellent mais mon

Banyuls

Terre de vignes
Lavée de vent
De vent salé
Sang de la terre
Rougit mon verre
Le goût du temps

Terre de montagnes
Tranchées de pierre
Vent de la terre
Souffle les vagues
Larmes d'écume
Sur la mer

Terre de parfums chantant le soleil
Les arbres fruitiers, les fleurs d'oranger
L'olivier, le thym, le miel

Terre de souvenirs et de prières
Une chapelle blanche, langue sans frontières
Sur les ruines amères des guerres

Terre de bonheur
Et de sourire
Sois bienvenu
Terre d'amitié
Soleil du coeur
A partager

Terre de soleil
Quand il s'éveille
Dore la mer
Puis sur les cimes
L'ombre s'étend
Heure du couchant

J'aimerai tellement prendre ta main
Et la clef des champs le long des chemins
Bordés de sarments de vin

Terre où nous pourrions cueillir le goût des figues
La senteur des fleurs, couleurs de la garrigue
Et regarder grandir nos coeurs




























Technology watch

Deux rapports de veille technologique parus presque en même temps sont à signaler.

Le premier, c'est le "Technology Watch Report 3" de Digicult (attention très gros PDF de plus de 100 pages). Ce rapport examine six technologies jugées esentielles dans les tendances actuelles : les logiciels open source, le traitement du langage naturel, la recherche d'informations, les systèmes de localisation (genre GPS), la visualisation des données, la robotique et la réalité virtuelle.

Au programme : des définitions, le replacement dans le contexte stratégique, les implications en particulier pour les domaines scientifiques et culturels, des explications techniques, des études de cas et des scénarios, des perspectives pour la mise en oeuvre et la faisabilité. Incontournable.

Le second intitulé The large-scale archival storage of digital objects, Technology Watch Report est signé par la British Library et est accessible sur le site du DPC (Digital preservation coalition). Beaucoup moins long mais aussi beaucoup plus spécialisé, il traite de la problématique de la mise en place d'un système d'archivage à long termes de documents numériques dans tous ses aspects : le stockage, l'obsolescence des techniques, les logiciels, les coûts...

Merci à Ten Thousand Years Blog et à Digitizationblog .

Le W3C et les identifiants

Le W3C se penche depuis belle lurette sur l'identification pérenne des ressources numériques (dont vous devez avoir sacrément marre d'entendre parler ici à force, mais tant pis).

Il y a eu d'abord les URI (identifiants de ressources), puis les URN (noms de ressources), tous deux dès 1994.

Les URL (localisation de ressources) arrivent après, aussi bizarre que cela puisse paraître pour nous (mais du point de vue modélisation, c'est logique). Le fameux Cool URIs don't change , document fondateur de la question de la pérennité de l'identification des ressources sur le Web, date de 1998.

Passé le tournant du siècle, on entre dans le Web sémantique et de nouveaux besoins apparaissent en termes d'identification : identifier des choses abstraites, des choses qui ne sont pas nécessairement des pages Web, et qu'elles puissent être identifiées par n'importe qui de façon unique sur le Web. Ces nouvelles réflexions donnent naissance au scheme "tag" , une syntaxe simple pour permettre à n'importe qui de nommer de manière pérenne et unique une ressource (ou une personne, un concept quelconque). Les "tag URIs" ont une syntaxe simple qui permet à tout un chacun de générer des identifiants uniques :

tag:mon-nom-de-domaine.org,2005-03-01:nom

Ce genre d'identifiants est utilisé par exemple pour identifier les billets de blogs dans le