Month of février, 2005

  • user warning: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'auteur'' at line 1 query: SELECT DISTINCT mm.uri as uri FROM moat_meanings mm, term_data td WHERE mm.tid = td.tid AND mm.nid = '559' AND td.name = 'droits d'auteur' in /home.10.23/lespetitA/www/figoblog/includes/database.mysql.inc on line 172.
  • user warning: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'auteur'' at line 1 query: SELECT DISTINCT mm.uri as uri FROM moat_meanings mm, term_data td WHERE mm.tid = td.tid AND mm.nid = '542' AND td.name = 'droits d'auteur' in /home.10.23/lespetitA/www/figoblog/includes/database.mysql.inc on line 172.

Numérisation, bibliothèque numérique

On m'a posé il y a peu la question suivante : la numérisation est-elle un acte technique ? Je suis généralement la première à dire que numériser n'est pas seulement un acte technique. Mais en fait ce n'est pas la numérisation elle-même qui a des retombées politiques, culturelles, etc. C'est la façon dont elle est faite et mise à disposition du public. Quand je parle de numérisation, cela désigne en général dans mon esprit le processus de production de l'information. Ce processus s'inscrit dans un contexte qui a beaucoup d'autres dimensions que la technique : le budget, la sélection, les compétences, l'organisation, le public, les services, la valorisation, etc.

Dans les bibliothèques, il existe quelque chose qu'on appelle le circuit du document. Ce "circuit" c'est en fait l'enchaînement de toutes les étapes qui vont du passage du bon de commande auprès du libraire jusqu'à la mise à disposition du livre pour le public. En passant par la livraison, le catalogage, l'équipement, la cotation, etc.

Toutes ces étapes véritablement techniques constituent en partie le coeur de la bibliothéconomie et du savoir-faire de notre métier. Et pourtant, aucune bibliothèque ne peut être réduite à son circuit du document.

Une bibliothèque, c'est d'abord une politique documentaire, la gestion de compétences, des services au public, un lieu, une

Joyeux anniversaire moi

Image associée au billet

Cette année, pour mon anniversaire (c'était lundi) j'ai été bien gâtée. Entre autres cadeaux tous au goût ou à la couleur de figue, j'ai eu ce magnifique bouquin, La magie de la figue dans la cuisine provençale de Gui Gedda.

C'est un hymne à la figue, la bourgeassotte, la figue noire de Solliès. On y trouve des recettes au nom enchanteur, au hasard : velouté de figues aux langoustines et rosé de Provence, terrine de canard aux figues et aux poivrons rouges, feuilles de figuier en surprise de poisson aux écailles de figues, gigotines de poulet farcies à la mousseline de figues, gâteau solliès-pontois à la confiture de figues, etc. Des recettes toutes en subtilité, en finesse, complexes et délicieuses.

En plus, pour mettre les bougies, Mimi m'a concocté le cake aux figues sèches, avec des pignons et du miel de tilleul, un régal.

Ce serait vraiment un injure à la beauté de ce livre et à l'ingéniosité de son auteur que de publier sauvagement ses recettes sur le Web, donc n'y comptez pas. Mais je lui adresse toute mon admiration gourmande et ma reconnaissance figuesque.

Pour ceux qui auraient oublié de me souhaiter mon anniversaire, c'est à dire tout le monde sauf les présents et Seb , il n'est pas trop tard, le reste de ma liste est !

Bonnes vacances

Moi aussi je vais ! Pas d'ordinateur, pas de connexion, rien que de la neige et des sapins. A dans une semaine !

Identifiants, versions, hiérarchisation

Prenez un célèbre moteur de recherche dans sa version "scientifique" .

Donnez-lui plusieurs versions d'un même article à référencer, issues d'archives ouvertes, de bibliothèques, et du site de l'éditeur.

Donnez-lui un identifiant type DOI qui lui permette d'identifier la version qui vient de l'éditeur.

Demandez-lui de la faire apparaître en premier.

Et surtout, ayez confiance.

Les source est ici et ici .

Tout sur l'OAI

Vous saurez tout sur l'OAI quand vous aurez visité la page du Workshop du CERN intitulé Implementing the benefits of OAI . On y trouve les diapos des intervenants, en powerpoint et en pdf, et même parfois en vidéo.

Notamment, l'introduction intitulée OAI and OAI-PMH for absolute beginners tient ses promesses en faisant le tour de la question avec simplicité et clarté.

Puisque j'en suis à parler d'OAI, je recommande l'article d'Herbert Van de Sompel et alii dans le Dlib du mois dernier (pas le nouveau qui vient de sortir et contient d'ailleurs un autre article sur SRU et l'OAI ).

Dans cet article, les auteurs abordent la problématique de l'utilisation de l'OAI quand on veut non pas se contenter d'échanger des métadonnées, mais échanger les ressources elles-mêmes. Parmi les problèmes soulevés, il y en a un qui m'est cher en ce moment : la difficulté de faire correspondre les métadonnées et les identifiants avec la localisation réelle de la ressource. Enfin le propos est d'utiliser l'OAI pour échanger des formats de métadonnées complexes, comme METS et MPEG21, qui permettent à la fois de localiser précisément toutes les parties d'une ressource, et de connaître toutes les modifications qui l'affectent. Le protocole OAI rejoint alors le modèle OAIS, deux standards qui à part ça et malgré leur ressemblance phonétique n'ont rien à voir

L'identification pérenne des ressources numériques (4)

Dans les épisodes précédents (1 , 2 , 3 ), nous avons vu :

  • les objectifs de l'identification pérenne des ressources numériques
  • les principales fonctionnalités des identifiants
  • les caractéristiques communes aux différents systèmes existants.

Aujourd'hui, je m'attaque à deux compléments indispensables de l'identifiant : le résolveur, et les métadonnées.

Le contexte de l'identifiant pérenne doit permettre de savoir à quoi celui-ci correspond et d'accéder à la ressource elle-même. Pour reprendre une métaphore que j'ai déjà utilisée : si on a votre nom, et qu'on veut vous trouver, il y a deux possibilités. Soit on dispose d'autres informations sur vous : votre photo, votre numéro de téléphone, votre adresse, votre CV ou n'importe quoi d'autre incluant dans le meilleur des cas votre adresse : ce sont les métadonnées. Soit on consulte un annuaire qui va donner l'adresse correspondant à ce nom : c'est le résolveur.

L'un n'exclut pas l'autre évidemment. On peut avoir un identifiant associé à des métadonnées et en plus un résolveur qui va donner l'URL correspondante.

Certains systèmes d'identification pérenne vont demander ou recommander la saisie de métadonnées conjointement avec l'enregistrement de la ressource. C'est le cas par exemple de DOI et de ARK .

D'autres systèmes sont dédiés à l'échange de métadonnées, mais

Usages de l'internet

Image associée au billet

On a pris l'habitude de découvrir les intéressantes études du Pew Internet & American Life Project , qui nous racontent ce que font les gens sur le Web, mais hélas seulement aux Etats-Unis.

Cela vaut donc le coup de signaler quelques pistes pour connaître les usages de l'Internet sur le vieux continent, et notamment ce rapport portant sur le Royaume-Uni. La différence avec les études américaines est assez sensible. Ainsi, vous n'entendrez pas ici parler de blog ou de RSS...

Sur les usages en France, on peut consulter par exemple :

Alors bon, faut mettre un peu de piquant dans nos références...

DRM et libertés individuelles

La Commission européenne a publié un document de travail sur l'impact des technologies de protection des droits de propriété intellectuelle, plus connues sous le nom de DRM.

Selon ce document, les DRM menaceraient les libertés individuelles, en permettant de tracer les utilisateurs. Les DRM ont de plus tendance à dévier l'usage qui est fait des données personnelles : alors qu'elles devraient servir à un contrôle a priori, elle s'étendent à un traçage pouvant entraîner des poursuites en cas d'usage illégal a posteriori. Ces données forment aussi une base d'attaque intéressante pour le marketing - et ça, c'est mal.

Ce qui veut dire que si vous achetez docilement un fichier protégé en disant qui vous êtes, non seulement on va vous bombarder de pub pour que vous continuiez à acheter, mais en plus si vous faites une bêtise, on va se servir de votre acte d'achat honnête pour vous tomber dessus. Vive la technologie.

Tout est très bien expliqué, en français en plus, sur le blog de Luc Saint-Elie . Merci à Tristan .

L'identification pérenne des ressources numériques (3)

Dans les épisodes précédents (1 et 2 ), nous avons vu que définir un système d'identification pérenne de ressources numériques passait par le choix d'un certain nombre de propriétés et de fonctionnalités du système.

Ceci étant posé, l'heure est maintenant venue de faire un choix parmi les sytèmes d'identification pérenne existants aujourd'hui sur le Web.

Si on essaye de faire une typologie des différents systèmes, on se trouve bien en peine de trouver un critère qui permette de les classer tous. En fait, il y a plusieurs critères à prendre en compte, parmi lesquels on peut citer :

  • l'indépendance : il y a les systèmes où les identifiants sont donnés par le créateur de la ressource, et les systèmes où ils sont donnés par un tiers
  • l'unicité : il y a des systèmes qui garantissent l'unicité seulement au sein d'un système, d'autres qui la garantissent de manière totale et mondiale à l'échelle du Web
  • la structure : il y a des systèmes qui attribuent des identifiants opaques, ou aveugles, et d'autres qui donnent des identifiants signifiants
  • etc.

Je pourrais continuer comme ça presque indéfiniment. En fait, ce qu'il faut retenir, c'est que la plupart des systèmes combinent ces différents aspects à différents niveaux. Le choix va être difficile car il n'existe pas de critère de différenciation clair et net. Ils ont chacun leur

505

La Bibliothèque du Congrès annonce qu'elle va désormais enrichir ses notices grâce à la zone 505 (note de contenus formatés). Cette zone MARC sera destinée à des informations générées automatiquement à partir des tables des matières des ouvrages, auparavant simplement signalées par un lien dans la zone 856 (zone de lien justement).

Voilà un moyen simple et automatique, donc sans douleur , pour améliorer la visibilité des notices bibliographiques et leur pertinence à l'égard des contenus. Une initative du BEAT : Bibliographic enrichement advisory team (ça jette comme nom, non ?).

Merci à ResourceShelf .

Intelligence artificielle

Image associée au billet

Via Sebastien Bailly , je décrouvre le jeu des 20 questions .

Le principe : vous pensez à un objet, un lieu, une chose, un concept. Grâce à une base de connaissance, 20Q essaye de trouver ce à quoi vous pensez en vous posant moins de 20 questions. S'il trouve en plus de 20 questions, vous gagnez sans gloire. S'il ne trouve pas du tout, vous gagnez avec les honneurs...

Ce n'est pas si facile que ça en a l'air. Au début, il trouvait facilement même des choses vagues comme "Internet" ou "une gare". Après j'ai réussi à gagner sur les mots suivants :

  • bibliothèque
  • catalogue (il m'a proposé : "camisole de force" ! ;-)
  • figue
  • amour.

Conclusion : l'intelligence artificielle résiste mal face à un haut niveau de subjectivité !

Puisque je suis dans ma rubrique inutile, visitez aussi :

Photo : dans le vieux Lyon, une arrière-cour due à Philibert Delorme

L'identification pérenne des ressources numériques (2)

On en était à définir les fonctionnalités de notre système d'identification pérenne. Faisons une petite liste de courses (librement inspirée de : RFC 1737 - Functional Requirements for Uniform Resource Names )

Unicité. Un identifiant doit bien sûr être unique pour garantir qu'il désigne une ressource et pas une autre. Mais unique à quelle échelle ? Il y a les identifiants qui sont uniques au sein d’un système, qui conviennent parfaitement pour un usage interne, bien circonscrit. Par contre, quand on se préoccupe de diffusion ouverte, d'échange, de référence, on cherche l'unicité à l'échelle du réseau, donc du monde. La même ressource, située à différents endroits, devrait avoir le même identifiant. Cela peut supposer une organisation plus ou moins centralisée à l'échelle internationale.

Pérennité. La pérennité est la clef de la stabilité de la référence et la principale problématique de l'utilisation des identifiants. Si on ne peut pas se contenter des URL, c'est qu'elles ne sont pas pérennes : si la ressource se déplace, son URL change. On peut comparer cela à une adresse postale : si on ne vous identifie que par votre adresse, et que vous déménagez, on ne peut plus vous retrouver. On identifie plus généralement les gens par leur nom, et ce nom, c'est l'identifiant. En général, la pérennité du système d'identification

Blog de bibliothèque

En France, on connaissait déjà les blogs perso de bibliothécaires, les blogs collectifs de bibliothécaires...

Mais à ma connaissance, le premier blog officiel de bibliothèque français, c'est celui-là .

Bravo !

L'identification pérenne des ressources numériques

Quand on crée des ressources numériques en ligne, qu'il s'agisse de numérisation, d'une édition ou tout simplement d'une entrée de blog, on se demande comment leur donner une identification fiable et durable sur le réseau.

La problématique de l'identification pérenne a des implications multiples que je vais essayer d'aborder (pas en un seul billet !).

La première question qu'on doit se poser, c'est pourquoi ? Ou plus précisément, quel objectif on cherche à atteindre. La terminologie reflète déjà deux axes possibles. Quand on dit référence stable, ou lien permanent, on se préoccupe manifestement de la capacité d'un tiers à nommer et retrouver la ressource : autrement dit, la citabilité. Quand on parle d'identifiant, ou URI , on est plutôt dans une problématique d'unicité et de pérénnité dans le cadre d'une utilisation pratique par des machines.

Déjà, dans ces deux optiques, il y a un choix à faire. Un identifiant peut être plus facilement généré par une machine. Celle-ci va tabler sur des combinaisons alphanumériques très longues pour garantir l'unicité, ce qui ne lui pose pas de problèmes particuliers, mais est ingérable pour un utilisateur humain.

La citabilité a elle aussi plusieurs dimensions. Les systèmes d'identification comme DOI par exemple ont l'avantage de constituer une référence que le lecteur peut retenir pour

Les bibiothèques du monde face à la propriété intellectuelle

Quelques-uns des grands regroupements américains et internationaux de bibliothèques, incluant l'ALA , l'ARL et l'IFLA vient de publier une déclaration de principes sur les droits d'auteur. Ces associations s'expriment dans le cadre du WIPO, le World Intellectual Property Organization, pour défendre des notions aussi simples et indispensables que le domaine public, le droit à la copie privée, le droit à l'usage dans un cadre public et pour l'enseignement, le droit au contournement des mesures techniques de protection, etc.

Une déclaration claire, résolue, qui ne semble avoir rien de présompteux. Et pourtant, si on voulait l'appliquer en France, il faudrait revenir en arrière sur des décisions législatives récentes, comme le droit de prêt, et aussi prendre enfin en compte la notion de "fair use" pour l'enseignement et la recherche.

Ce texte est à rapprocher de celui qu'avaient diffusé les associations de bibliothécaires français en février 2004, tirant la sonnette d'alarme sur la fin de l'équilibre entre la diffusion des biens culturels et les droits de propriété intellectuelle.

Il faut espérer qu'un maximum d'organismes et d'acteurs bibliothéconomiques vont se rallier à la bannière de ces principes, afin de faire entendre la voix des bibliothèques, qui font partie des derniers acteurs à défendre avec un tout petit peu de